觀察|深度學習需持續收集海量數據,自動駕駛開發有哪些挑戰。

·『自動駕駛將車廠和用戶之間的價值交換,從買車的一瞬間,延長到使用車的整個生命周期』背後邏輯在於,傳統汽車量產後軟件基本就不再發生變化,但對自動駕駛軟件而言卻是要不停更新的。

·『自動駕駛開發流程中的具體挑戰主要在五個方面:海量數據的傳輸;海量數據的低成本存儲;預處理和分析;復雜的模型開發和訓練;仿真驗證。

『自動駕駛、車聯網、軟件定義汽車,這三個方面代表著汽車產品數字化三大最重要的場景』近日,亞馬遜雲科技大中華區戰略業務發展部總經理顧凡在接受澎湃新聞《www.thepaper.cn)在內的記者采訪時說道,這些趨勢背後本質上在發生的變化是:將車廠和用戶之間的價值交換,從買車的一瞬間,延長到使用車的整個生命周期。

顧凡認為,無論是利用自動駕駛、車聯網抑或軟件定義汽車,其本質是希望通過直接的互動,拿到更多數據,以此來指導如何提供使用者真正會買單的服務,『一個比較好的例子是特斯拉按月訂閱的自動駕駛服務』

這些變化都根植於一個邏輯,傳統汽車量產後軟件基本就不再發生變化,但對自動駕駛軟件而言卻是要不停更新的。

因為自動駕駛基於深度學習,需要持續不斷收集長尾裡不常見的案例數據,不停迭代算法。

這樣的開發流程是數據驅動的端到端的流程:首先車端的數據會被采集,集中存儲或者放在雲上的自動駕駛數據湖,數據湖裡的數據進一步做預處理和分析,然後對處理和清洗過的數據進行標註,訓練自動駕駛的機器學習模型。

模型一旦開發出來,將通過仿真和驗證進行測試,最終模型通過驗證就會部署到車輛上。

在上述開發環節中使用到的工具就是工具鏈,顧凡認為,工具鏈的效率會決定自動駕駛的開發效率。

『目前無論是自研還是整合現有工具鏈,都會面臨一個挑戰——工具鏈之間的割裂和數據孤島,而當在雲上圍繞自動駕駛數據湖去整合工具鏈的時候,就可以非常有效地解決數據孤島的問題』

顧凡提出,自動駕駛開發流程中的具體挑戰主要在五個方面。

第一,海量數據的傳輸。

自動駕駛的測試車運行的過程中各類的傳感器、攝像頭、激光雷達、毫米波雷達會產生大量數據,每天每車數據量會達到TB級別。

其中,顧凡認為,目前行業中更大的挑戰在於,怎麼做定制化的數據采集,如針對長尾案例做特定場景的數據采集。

第二,海量數據的低成本存儲。

對這個問題,顧凡分享了智能分層的思路,這個方法依賴於機器學習,可根據自動駕駛工作負載裡動態變化的數據訪問模式實現自動分層,也就是說在8個存儲層級裡自動選擇最合適的層級。

第三,預處理和分析。

自動駕駛汽車的傳感器數據首先要去噪,即數據清洗、統一格式。

顧凡認為,在雲上整合自動駕駛工具鏈的核心就是自動駕駛數據湖,數據可以在各個工具鏈上下遊流動,這樣就可以避免工具鏈割裂帶來的數據孤島的問題。

第四,復雜的模型開發和訓練。

當數據處理完成以後,下一步就是數據標註。

在以深度學習為主的感知模型中,無論是2D、3D的標註還是聯合標註,抑或車道線的標註,都需要向模型『喂養』海量有『真值《Ground Truth》』標註的數據。

在標註中,最大的痛點在於質量價格比。

目前業界比較流行的方法是用專業的人力配合自動化輔助標註,去提升質量價格比。

而在模型開發階段,無論是從特征工程、模型訓練,再到超參調優《為機器學習算法選擇最優超參組合》和模型調試,都需要非常復雜的機器學習端到端的集成開發環境。

同時,需要花費大量人力針對多個訓練任務和GPU計算資源進行調度、管理。

第五大挑戰是仿真驗證。

仿真系統主要由場景庫、仿真平臺、評價體系三部分組成,仿真系統的效率會直接影響整個自動駕駛開發鏈的效率。

顧凡比喻道,數據驅動的自動駕駛開發流程可以想象成題海戰術,場景庫相當於考官出的無數難題,仿真平臺上『做題』,仿真評價像打分閱卷,可以真正看到自動駕駛的軟件在題海戰術中到底表現如何。

在仿真領域又有兩大挑戰:規模及成本。

『規模就好比,面對一個場景庫的題海戰術,一天能做多少題。

成本是花了多少錢,請了多少人,一起來做這些難題』顧凡說。

目前主要用雲上的高並發仿真來應對這個挑戰。

雲上的仿真模式有兩種,一種是基於路測的真實數據回放,測試自動駕駛系統不同部件整合起來的綜合性能。

還有一種是常規熟識的仿真,即對環境、路面地形、傳感器、車輛控制等進行仿真,這種仿真模式主要用於控制和規劃算法的開發。

超大規模的雲上並行仿真需要三個核心要素:計算資源、持久化存儲資源和並行文件系統。

顧凡解釋道,『隻有這三個全部都能夠支持大規模的彈性擴縮,才不會有短板,才不會在仿真的工作負載中產生瓶頸』