『在 AI 技術生態上,生成式大模型已成為自動駕駛系統進化的關鍵,基於 Transformer 大模型訓練的感知、認知算法,將逐步在車端進行落地部署』
在最新的毫末 AI DAY 上,毫末智行董事長張凱給出了這一判斷,並基於這一判斷發佈業內首個自動駕駛生成式大模型 DriveGPT,中文名『雪湖·海若』。
自去年年末以來, GPT 的熱度一直高漲不下,尤其是 ChatGPT 的大火更是引發全行業關注。
此前,GPT 多應用於文本生成、代碼生成或是搜索領域,但由於缺乏數據支撐,GPT 在自動駕駛行業這一垂類的應用並不高。
截至目前,業內也僅有毫末一家率先將 GPT 應用到自動駕駛領域,即 DriveGPT 雪湖·海若。
DriveGPT 能為智能駕駛做什麼?
GPT 的全稱是生成式預訓練 Transformer 模型,本質上是在求解下一個詞出現的概率。
即根據輸入的前序文本,模型會輸出可能出現的下一個字的幾率分佈,再從中取樣出幾率較高的字。
如此循環往復,直到完整地寫完下文。
據官方介紹,DriveGPT 雪湖·海若的底層模型采用 GPT《Generative Pre-trained Transformer》生成式預訓練大模型,與 ChatGPT 使用自然語言進行輸入與輸出不同,DriveGPT 輸入是感知融合後的文本序列,輸出是自動駕駛場景文本序列,即將自動駕駛場景 Token 化,形成『Drive Language』。
Drive Language 基於毫末的 CSS 場景庫理論,將駕駛空間進行離散化處理,每一個 Token 都表征場景的一小部分,相當於許多個可能在未來出現的平行宇宙,最終完成自車的決策規控、障礙物預測以及決策邏輯鏈的輸出等任務。
截至目前,毫末從真實駕駛場景庫中提取的token序列,規模達到 50 萬個。
有了 Drive Language,毫末就可以用人類駕駛的數據對模型進行預訓練。
首先,在預訓練階段通過引入量產駕駛數據,訓練初始模型,再通過引入駕駛接管 Clips 數據完成反饋模型《Reward Model》的訓練,然後再通過強化學習的方式,使用反饋模型去不斷優化迭代初始模型,形成對自動駕駛認知決策模型的持續優化。
同時,DriveGPT 雪湖·海若會根據輸入端的提示語以及毫末 CSS 自動駕駛場景庫的決策樣本去訓練模型,讓模型學習推理關系,從而將完整駕駛策略拆分為自動駕駛場景的動態識別過程,完成可理解、可解釋的推理邏輯鏈生成。
毫末智行 CEO 顧維灝表示,毫末 DriveGPT 雪湖·海若通過引入駕駛數據建立 RLHF《人類反饋強化學習》技術,對自動駕駛認知決策模型進行持續優化。
據毫末方面的說法,在 RLHF 的加持下,Hard Case 通過率提升了 48%。
目前,毫末 DriveGPT 雪湖·海若實現了模型架構與參數規模的升級,參數規模達 1200 億,預訓練階段引入 4000 萬公裡量產車駕駛數據,RLHF 階段引入 5 萬段人工精選的困難場景接管 Clips。
毫末方面表示,DriveGPT雪湖·海若現階段主要用於解決自動駕駛的認知決策問題。
『在感知到了周圍的世界之後,怎麼樣把車開得更安全,把車開得更順滑,怎麼樣跟周圍的交通參與者互相博弈』顧維灝說道。
毫末判斷,DriveGPT雪湖·海若還將在城市 NOH、智能陪練、駕駛捷徑推薦、脫困場景中得到應用,最終目標是要實現端到端自動駕駛
毫末在 AI DAY 上宣佈,DriveGPT雪湖·海若將在即將量產上市的新摩卡DHT-PHEV首發。
毫末基於GPT技術的探索,毫末衍生出服務於業界的能力和新的商業模式,即向業界開放DriveGPT的能力,4月11日開放單幀自動標註服務,可降低標註成本,之後還將陸續開放駕駛行為驗證、困難場景脫困等功能。
DriveGPT 背後的支持
事實上,DriveGPT 雪湖·海若的訓練和落地,離不開算力的支持。
今年 1 月,毫末和火山引擎共同發佈了其自建智算中心『毫末雪湖·綠洲 MANA OASIS』。
毫末表示,OASIS 的算力高達 67 億億次/秒,存儲帶寬 2T /秒,通信帶寬達到 800G /秒。
不過,隻有算力還不夠,還需要訓練和推理框架的支持,由此毫末進行了三方面升級——
一是訓練穩定性優化。
毫末在大模型訓練框架的基礎上,與火山引擎共同建立了全套訓練保障框架,可以通過集群調度器實時獲取服務器異常,將異常節點從訓練 Task group 中刪除,再結合CheckPoint 功能,利用 VePFS 高性能存儲和 RDMA 網絡高效分發,以保障 DriveGPT雪湖·海若大模型訓練的穩定性。
二是彈性調度資源的升級。
毫末構建了一個大模型持續學習系統,數據以動態數據流的形式結合增量學習,持續不斷地將量產回傳和篩選的存量數據,傳入認知和感知 Pretrain 大模型。
三是吞吐效率的升級。
在 Transformer 的大矩陣計算上,毫末通過對內外循環的數據拆分,盡量保持數據在 SRAM 中提升計算的效率;在傳統的訓練框架中,通過引入火山引擎提供的 Logo核心算子庫實現融合,端到端吞吐提升 84%。
另外,毫末表示,自動駕駛數據智能體系MANA架構已迎來全線升級。
截至2023年4月, MANA 學習時長超 56 萬小時,相當於人類司機 6.8 萬年。
在 MANA 發佈迭代一年後,在本次 AI DAY 也迎來升級,具體包括:
首先,MANA 感知和認知相關大模型能力統一整合到 DriveGPT 雪湖·海若中;其次,MANA計算基礎服務針對大模型訓練在參數規模、穩定性和效率方面做了專項優化,並集成到 OASIS 中;第三,增加了使用NeRF技術的數據合成服務,降低 Corner Case 數據的獲取成本;最後,針對多種芯片和多種車型的快速交付難題優化了異構部署工具和車型適配工具。
在視覺感知能力上,毫末對視覺自監督大模型做了一次架構升級,將預測環境的三維結構,速度場和紋理分佈融合到一個訓練目標裡面,強迫模型練好內功,使其能從容應對各種具體任務。
目前毫末視覺自監督大模型的數據集超過 400 萬 Clips,感知性能提升 20%。
顧維灝舉例稱,在泊車場景下,毫末將魚眼相機也引入到視覺 BEV 的感知框架當中,魚眼圖像通過 2D backbone 提取出視覺特征,經過空間轉換映射至 BEV 空間,並在該空間下對於障礙物的輪廓邊界進行識別和測量,目前可做到在 15 米范圍內達測量精度 30cm,2 米內精度高於 10cm。
除了用自監督大模型練內功,毫末還公開了在純視覺三維重建方面的一些進展。
毫末對 NeRF 做了升級,將視覺感知結果轉化為可用於 BEV 模型訓練的帶 3D 標註的真值數據,目前可以做到重建誤差小於 10cm。
單趟重建有時會受到遮擋的影響,不能完整地還原三維空間,因此毫末嘗試了多趟重建的方式——即將同一地點不同車輛在不同時間經過的數據合並做多趟重建,由此提升場景還原度,重建效率可提升 5 倍。
重建之後,MANA 可以編輯場景合成難以收集的 Corner Case。
毫末表示,近期訓練了一個可以在靜態場景做虛擬動態物體編輯的模型,可以控制虛擬物體在場景中按照設定的軌跡運動,由此合成各種 hardcase,例如近距離回車,行人、電動車交互行為等。
2023年將是智駕產品大考之年
『2023 年智駕產品進入全線爆發期』毫末智行董事長張凱在活動上表示。
張凱判斷,城市導航輔助駕駛產將在 2023 年將圍繞量產上車發力,主要玩家的城市導航輔助駕駛產品進入到真實用戶覆蓋和多城市落地的比拼。
其次,行泊一體和末端物流自動配送產業商業化將成為自動駕駛公司深耕的重點。
在乘用車領域,搭載行泊一體功能的智駕產品將迎來前裝量產潮;在末端物流自動配送領域,末端物流自動配送車在商超、快遞等場景迎來爆發,2023 年將在這些場景實現可持續商業化閉環。
在 AI DAY 上,毫末表示其城市 NOH 已在北京、保定、上海等城市開啟泛化測試,即將量產上車。
張凱表示,到2024 年,毫末城市 NOH 將有序落地 100 城。
一年之內,從三座城市擴張至百城,毫末給出的目標可以說十分激進。
截至目前,毫末三代乘用車產品搭載車型近 20 款,毫末輔助駕駛用戶行駛裡程突破4000萬公裡,HPilot2.0 日均裡程使用率 12.6%。
毫末智行透露,目前已與 3 家主機廠《包括長城》簽署定點合同,相關項目正在交付中。
結合毫末往屆 AI DAY 的動態來看,從發佈中國首個數據智能體系 MANA,到建設智算中心雪湖·綠洲,再在其基礎上訓練出參數規模達 1200 億作為 DriveGPT 雪湖·海若模型,毫末的閉環思維始終貫徹其技術始末,並逐漸形成數據驅動的閉環。
正如毫末所言,2023 年將是智能駕駛沖刺之年、大考之年。
這對毫末來說,這也是長久技術佈局走向落地應用的關鍵時期;畢竟,毫末要在 2025 年實現城市 NOH 落地 100 城,這並不是一個簡單的事情。
《本文首發鈦媒體App,作者|肖漫,編輯|張敏》