毫末的自動駕駛路徑越來越清晰,核心技術點可以概括為三個詞:大算力、大模型、大數據。
作者 | 肖瑩
1月5日,第七屆 HAOMO AI DAY在北京舉辦,毫末分享了對自動駕駛技術迭代的思考和實踐。
每個季度做一個總結分享,個人感受而言,毫末團隊是學習能力很強且最有意願分享的自動駕駛公司之一。
就像特斯拉AI DAY,HAOMO AI DAY也成為了一個了解自動駕駛技術進展的窗口。
這次HAOMO AI DAY上,毫末智行宣佈智算中心正式成立,命名為『雪湖·綠洲』《MANA OASIS》。
以此為支撐,毫末還發佈了MANA五大模型,包括視覺自監督大模型、多模態互監督大模型、3D重建大模型、動態環境大模型,以及人駕自監督認知大模型。
經過不斷地迭代、進化,毫末的自動駕駛路徑也更加清晰,核心技術點可以概括為三個詞:大算力、大模型、大數據。
01
搶先投入大算力基建 智算中心『綠洲』發佈
算力比拼已經不局限於車端,開始進入到了雲端,即智算中心的搭建。
毫末智行在國內自動駕駛玩家中,最早意識到了這一問題,並搶先著手搭建智算中心。
在這次AI DAY上,毫末宣佈了智算中心的命名——『雪湖·綠洲』《MANA OASIS》。
由毫末智行與字節跳動旗下雲服務平臺火山引擎聯合打造,每秒浮點運算達67 億億次,存儲帶寬每秒2T,通信帶寬每秒800G。
小鵬汽車在2022年8月發佈的智算中心扶搖算力為600PFLOPS,即每秒浮點運算60億億次。
當時,小鵬稱之為算力最強的自動駕駛智算中心。
對比算力來看,MANA OASIS已經超越扶搖,成為國內自動駕駛行業最大的智算中心。
自動駕駛發展進入關鍵階段,數據獲取效率、處理效率是算法進化的關鍵,海量的產品數據、超大規模的數據訓練、大模型的應用等,都對算力提出了更龐大的需求。
值得一提是的,MANA OASIS是毫末建設的私有雲。
就采用公有雲還是搭建私有雲的話題,我們曾咨詢過多家自動駕駛公司,目前多數玩家還是以公有雲為主,大家普遍認為,是否自建的核心在於性價比考量。
而隨著數據存儲、處理量越來越大,公有雲就越來越不具備成本優勢。
毫末建設私有雲,一方面是私有雲針對性更強,另一方面也是基於性價比的考慮。
同時,據毫末介紹,在數據管理能力方面,為充分發揮智算中心價值,讓GPU 持續飽和運行,毫末歷經兩年研發,建立了全套面向大規模訓練的Data Engine,實現了百P數據篩選速度提升10倍、百億小文件隨機讀寫延遲小於500微秒。
500微秒意味著什麼?毫末解釋稱,對於數據處理來說,大家一般考慮的是算得有多快。
但隨著技術的發展,數據處理真正的瓶頸已經不卡在GPU上,並不是顯卡本身算得不夠快,而是卡在通信上。
隻有達到500微秒這樣水平的文件讀取速度,才能支撐起來能把幾十萬、幾百萬的clips放在一起訓練。
如果做不到這樣水平,整個訓練速度就會由於文件讀取的原因卡住,這就意味著,有相當於大量的GPU在閑置,等待文件系統把數據讀上來,才能開始計算。
在算力優化方面,毫末與火山引擎合作,部署了Lego高性能算子庫、ByteCCL 通信優化能力、以及大模型訓練框架。
在訓練效率方面,基於Sparse MoE,通過跨機共享,可完成萬億參數大模型訓練,且百萬個clips訓練成本隻需百卡周級別,訓練效率提升100倍。
毫末預計,進入2023年,超算中心會成為自動駕駛企業的入門配置,預計會有更多的企業開始投入建設,毫末屬於率先摸索的企業。
02
打造五大算法模型,感知模型跨代升級
在介紹毫末打造的五大大模型之前,我們先來解釋一下如何理解『大模型』?
大模型也可以稱之為基石模型《fundation model》,屬於深度學習的一種,在AI領域具備裡程碑式的影響。
在《2022達摩院十大科技趨勢》中,達摩院將其稱作『從弱人工智能通向人工智能突破性的探索』。
大模型的主要特征包括三個方面:參數規模大、數據規模大、算力需求大。
基於這樣的特點,大模型在自動駕駛領域的應用有一定優勢。
自動駕駛采集的數據種類繁雜,包括不同傳感器采集的數據、實際路測數據、仿真數據等等,小模型因為模型容量太小,無法灌入足夠多數據,難以沉淀出有價值的信息,大模型則在模型容量上有保障,能夠通過大量數據灌入,學習到關鍵信息。
交代完這一背景,我們來重點介紹一下毫末MANA五大模型:
1、視覺自監督大模型。
這一大模型核心價值是讓毫末4D clip標註實現100%自動化,同時將標註成本降低98%。
為了更低成本、更高效獲取更多高價值數據,需要解決從離散幀自動化擴充到clips形態的問題。
毫末首先利用海量videoclip,通過視頻自監督方式,預訓練出一個大模型,用少量人工標註好的clip數據進行Finetune《微調》,訓練檢測跟蹤模型,使得模型具備自動標註的能力。
然後,將已經標註好的千萬級單幀數據所對應的原始視頻提取出來組織成clip,其中10%是標註幀,90%是未標註幀,再將這些clip輸入到模型,完成對90%未標註幀的自動標註,進而實現所有單幀標註向clip標註的100%的自動轉化,同時降低98%的clip標註成本。
2、3D重建大模型。
核心價值在於數據生成、仿真場景的搭建,以獲得海量corner case《長尾場景》。
面對『完全從真實數據中積累的corner case困難且昂貴』的行業難題,毫末將爆火的三維重建NeRF技術應用在自動駕駛場景重建和數據生成中,它通過改變視角、光照、紋理材質的方法,生成高真實感數據,實現以低成本獲取normal case,生成各種高成本corner case。
根據毫末介紹,3D重建大模型生成的數據,不僅比傳統的人工顯式建模再渲染紋理的方法效果更好、成本更低,增加NeRF生成的數據後,還可將感知的錯誤率降低30%以上。
3、多模態互監督大模型,主要是為了更加精準識別異形障礙物。
在實現車道線和常見障礙物的精準檢測後,針對城市多種異形障礙物的穩定檢測問題,毫末正在思考和探索更加通用的解決方案。
多模態互監督大模型引入了激光雷達作為視覺監督信號,直接使用視頻數據來推理場景的通用結構表達。
通用結構的檢測,可以很好地補充已有的語義障礙物檢測,有效提升自動駕駛系統在城市復雜工況下的通過率。
4、動態環境大模型,進一步降低對高精地圖的依賴。
通過這一模型可以預測道路的拓撲關系,讓車輛行駛在正確的車道中。
在重感知技術路線下,毫末為了將對高精地圖的依賴度降到最低,面臨著『道路拓撲結構實時推斷』的挑戰。
為此,毫末在BEV《鳥瞰圖》的feature map《特征圖》基礎上,以標精地圖作為引導信息,使用自回歸編解碼網絡,將BEV特征,解碼為結構化的拓撲點序列,實現車道拓撲預測,讓感知能力能像人類一樣,在標準地圖的導航提示下就可以實現對道路拓撲結構的實時推斷。
毫末認為,解決了路口問題實際就解決了大部分城市NOH問題,目前在保定、北京,毫末對於 85%的路口拓撲推斷準確率高達 95%。
但毫末也坦言,這一模型距離大規模應用還有一定距離。
5、人駕自監督認知大模型,可以讓駕駛策略更加擬人化。
在探索『使用大量人駕數據,直接訓練模型做出擬人化決策』方面,毫末為了讓模型能夠學習到高水平司機的優秀開車方法,全新引入了用戶真實的接管數據,同時用RLHF《從人類反饋中強化學習》思路先訓練一個reward model《獎勵模型》來挑選出更好的駕駛決策。
通過這種方式,使毫末在掉頭、環島等公認的困難場景中,通過率提升30%以上。
這與AGI領域爆火的ChatGPT 的思路相同,通過人類行為反饋來選出最優答案。
在五大模型助力下,MANA最新的車端感知架構,從過去分散的多個下遊任務集成到了一起,形成一個更加端到端的架構,包括通用障礙物識別、局部路網、行為預測等任務,讓毫末車端感知架構實現了跨代升級。
03
HPilot搭載近20款產品,自動駕駛進入3.0時代
在技術落地層面,毫末也復盤了2022年進展,以及後續的規劃。
自發佈以來,毫末HPilot智能駕駛系統已經經過了6次OTA升級,迭代到3.0版本。
三代HPilot產品搭載至魏牌、坦克、歐拉、長城炮等近20款車型,輔助駕駛用戶行駛裡程突破2500萬公裡。
HPilot 3.0也將要正式量產交付,毫末的城市NOH軟件封版,並達到交付狀態,具備打通高速、城市場景高級別的輔助駕駛能力,首款搭載城市NOH的車型將在2023年上市。
通過重感知、輕地圖技術,毫末城市NOH定位是可大規模量產的城市導航輔助駕駛。
預計到2024年上半年,毫末將完成HPilot落地中國100個城市的計劃,實現點點互達。
到2025年,更大規模全場景的NOH將更快落地,並邁入全無人駕駛時代。
第六屆毫末AI DAY上,毫末首次提出自動駕駛3.0時代的概念,這是對於自動駕駛技術發展階段的一個判斷。
毫末認為自動駕駛發展會經歷三個階段。
硬件驅動的1.0時代,最典型的特征是,感知能力主要靠激光雷達,認知方式依賴人工規則,整車成本高企,自動駕駛裡程數據在100萬公裡左右。
軟件驅動的2.0時代,AI在車上廣泛應用,但還是小模型和小數據訓練的方式,傳感器的識別結果開始融合,但還是基於結果的後融合方式,認知方式依然以人工規則為主,自動駕駛裡程數據在100萬到1億公裡之間。
數據驅動的3.0時代,數據可以自己訓練自己,自動駕駛玩家的側重點,轉移到高效獲取數據,並把數據轉化為知識上。
從全球來看,以數據驅動為標志,特斯拉領跑全球率先進入自動駕駛3.0時代。
在中國,以毫末智行等漸進式自動駕駛企業為代表,正在通過規模量產和高階輔助駕駛場景落地實現數據閉環,推動自動駕駛技術快速走向成熟。
在此次AI DAY上,毫末作出判斷,2023年自動駕駛將全面進入3.0時代。
同時,毫末還做出判斷,進入2023年,智能駕駛的用戶體驗將從嘗鮮轉變為用戶依賴。
隨著搭載高速導航輔助駕駛系統的智能汽車大量進入市場,智能駕駛系統能力不斷提升,用戶使用時長和粘性也在不斷增加,智能駕駛系統的核心價值將會逐步從體驗嘗鮮轉變為功能依賴。
微信掃碼|作者交流
hsd_xiaoying