作者 | 白日夢想家
編輯 | 王博
2022年過去,數據驅動成為自動駕駛演進共識。
沿著數據驅動這條路線,自動駕駛加速邁入智算時代。
智算中心應運而生。
實際上,將智算引入自動駕駛的開先河者是特斯拉,其率先發佈了專用於自動駕駛訓練的超級計算中心Dojo,此後,一眾玩家如毫末、小鵬等紛紛宣佈建立智算中心。
各大智算中心比拼什麼?
答案是,如何用低成本且高效的方式實現海量數據的閉環驅動。
『自動駕駛大模型加速降低開發成本,數據更接近人駕環境。
基於量產實車數據的仿真技術將與自動駕駛雲端超大模型結合,迎來新突破。
超算中心成為自動駕駛的入門配置』毫末智行董事長張凱在2023十大自動駕駛趨勢預測中表示。
1月5日,在第七屆HAOMO AI DAY上,毫末智行正式發佈了由其與字節跳動旗下火山引擎聯合打造的智算中心雪湖綠洲《MANA OASIS》,這也是中國自動駕駛公司首個設立的智算中心。
『綠洲』登場,為我們揭開了智算時代的戰場一角,也讓毫末成為對陣特斯拉中最有看點的自動駕駛公司之一。
自建智算中心,劍指數據閉環
這應該是目前中國自動駕駛行業最大智算中心了。
每秒浮點運算可達67億億次,存儲帶寬每秒2T,通信帶寬每秒800G,毫末官方在介紹MANA OASIS時給出這樣一組數據。
基於火山引擎豐富的大數據積累和底層技術,MANA OASIS實現了計算、存儲、通訊能力,可讓數據更快速轉化成知識。
有了這一新利器,毫末智行CEO顧維灝宣佈,預計2024年上半年,毫末城市NOH落地將達到100城,2025年實現全無人駕駛。
MANA OASIS的出現是有其背景的。
隨著感知技術與計算平臺的逐漸成熟與趨同,影響高階自動駕駛落地的關鍵因素,不再是解決常見的一般案例,而是解決『路口』問題,也即各類不常見,但不斷出現的『長尾問題』,
作為一種模仿人類的科學,AI自動駕駛與人類認知世界的邏輯基本一致,想讓汽車更好地理解世界,就需要構建更精準的模型。
但算法模型的建立並非一勞永逸,自動駕駛車輛在行駛過程中總會遇到各種陌生場景。
因此,如何對新場景數據進行大規模高效處理並快速優化算法模型,即成為自動駕駛技術迭代的關鍵。
換言之,構建基於數據驅動的自動駕駛數據閉環,讓數據實現高效流動,是實現高階自動駕駛的必由之路。
為滿足實現數據閉環的所需要的超大算力數據中心,MANA OASIS出現了。
它的直接任務,便是為毫末智行的MANA數據智能體系提供超級算力,幫助MANA的五大模型實現低成本且高效的迭代。
MANA OASIS具備4大核心能力,包括以穩健系統架構保證高效存儲和網絡通訊、數據管理能力、算力優化能力以及訓練加速能力。
顧維灝介紹,基於火山引擎豐富的大數據積累和底層技術,MANA OASIS實現的計算、存儲、通訊能力,可以讓GPU不再等待數據,數據轉化成知識的速度也會更快。
毫末數據、算力、訓練效率也迎來全面提升。
具體來看,在數據管理能力方面,為充分發揮智算中心價值,讓GPU持續飽和運行,毫末歷經2年研發,建立了全套面向大規模訓練的Data Engine,實現了百P數據篩選速度提升10倍、百億小文件隨機讀寫延遲小於500us。
在算力優化方面,毫末與火山引擎合作,部署了Lego高性能算子庫、ByteCCL通信優化能力、以及大模型訓練框架。
軟硬一體,把算力優化到極致。
在訓練效率方面,基於Sparse MoE,通過訓練平臺的持續優化,毫末可實現單機訓練百億參數大模型,以及實現跨機共享expert的方法,完成千億參數規模大模型訓練,訓練成本降低到百卡周級別,訓練效率提升100倍。
那麼,MANA OASIS是怎麼提升毫末的數據閉環效率的呢?
基於MANA OASIS智算中心,MANA數據智能體系的五大模型迎來了升級。
這五大模型包括:視頻自監督大模型、3D重建大模型、多模態大模型、動態環境大模型以及人駕自監督認知大模型。
其中,視頻自監督大模型、3D重建大模型的應用目的是為了降低成本,另外三個大模型的應用是為了提升數據流轉效率。
具體來說,毫末智行視頻自監督大模型主要做數據標註工作,能夠讓毫末 4D clip 標註實現 100%自動化,人工標註成本降低 98%。
3D 重建大模型可以實現以低成本獲取 normal case,生成各種高成本 corner case,其生成的數據,不僅比傳統的人工顯式建模再渲染紋理的方法效果更好、成本更低,增加 NeRF 生成的數據後,還可將感知的錯誤率降低 30%以上。
多模態互監督大模型,能夠精準識別異形障礙物。
毫末智行通過引入激光雷達作為視覺監督信號,直接使用視頻數據來推理場景的通用結構表達,而通用結構的檢測,可以很好地補充已有的語義障礙物檢測,有效提升自動駕駛系統在城市復雜工況下的通過率。
動態環境大模型,可以精準預測道路的拓撲關系,讓車輛始終行駛在正確的車道中。
毫末智行通過在 BEV《鳥瞰圖》的 feature map《特征圖》基礎上,以標精地圖作為引導信息,使用自回歸編解碼網絡,將 BEV 特征,解碼為結構化的拓撲點序列,實現車道拓撲預測,從而使毫末智行在感知能力上能夠像人類一樣在標準地圖的導航提示下就可以實現對道路拓撲結構的實時推斷。
毫末智行認為,解決了路口問題實際就解決了大部分城市 NOH 問題,目前在保定、北京,毫末對於 85%的路口拓撲推斷準確率高達 95%。
即便是非常復雜、非常不規則的路口,毫末也能準確預測。
人駕自監督認知大模型,能夠掌握高水平司機的開車技法,讓駕駛決策更聰明。
在探索『使用大量人駕數據,毫末智行全新引入用戶真實的接管數據,同時用 RLHF《從人類反饋中強化學習》思路先訓練一個 reward model《獎勵模型》來挑選出更好的駕駛決策。
通過這種方式,使毫末智行在掉頭、環島等公認的困難場景中,通過率提升 30%以上。
此外,基於綠洲的支持,MANA最新的車端感知架構,從過去分散的多個下遊任務都集成到一起,形成一個更加端到端架構,包括紅綠燈、局部路網、預測等任務,實現了跨代升級。
以上這些,意味著毫末的感知能力更強,自動駕駛功能有了更大的可挖掘空間。
此次AI DAY上,毫末智行正式宣佈將在2025年實現全無人駕駛。
毫末智行的底氣在是什麼?顧維灝給出的答案,是重感知的技術路線、大模型的技術應用。
這裡有一個先後順序,需要先有大量數據,再進行數據的處理和應用。
在智算中心之前,毫末智行率先引入Transform等新技術,確立以數據閉環驅動形式的數據智能體系MANA,其已經成為毫末智行所有產品迭代的核心動力,截止目前,其學習時長已經超過42萬小時,虛擬世界駕齡相當於人類司機5.5萬年的駕齡。
當前,毫末智行已經完成數十萬全要素、多模態CLIPS的標註,在場景庫積累方面已經建設完成300萬小時中國道路駕駛認知場景庫,可以真正做到感知智能和認知智能的有效協同。
之後,怎麼更好的處理數據。
智算中心的建立,能夠讓毫末智行在實現數據高效流轉閉環的同時,還能夠降低整個研發成本,從而促進自動駕駛系統快速實現量產落地。
值得一提的事,毫末智行自研的AEB算法助力魏牌、歐拉、坦克共計四款車型獲得ENCAP、ANCAP五星安全,毫末是中國首個自研AEB算法落地海內外的公司,毫末也成為第一個出海歐洲、澳洲的自動駕駛公司。
在專利方面,截止到2022年12月,毫末擁有專利證書146件,全面覆蓋數據融合、智能感知、智能決策、控制執行、模型算力提升等領域。
實際上,毫末還有一重優勢,那就是背靠長城的量產優勢。
毫末智行能夠快速實現量產能力,也是能夠反哺其自動駕駛技術快速升級迭代的重要因素之一。
目前正在陸續交付中的車型有摩卡DHT-PHEV激光雷達版、歐拉閃電貓、歐拉芭蕾貓、全新一代長城炮等。
這些車型上市之後,也能夠為毫末智行提供越來越多的高質量的自動駕駛數據,助力其自動駕駛系統不斷迭代升級。
截止2022年底,毫末HPilot搭載車型近20款,已經搭載上市車型包括魏牌摩卡、魏牌拿鐵、魏牌瑪奇朵、坦克300、坦克500、哈弗神獸、拿鐵DHT-PHEV等。
用戶輔助駕駛行駛裡程突破2500萬公裡。
城市輔助駕駛上,毫末智行的城市NOH軟件達到交付狀態,目前已經開啟多城路測,毫末城市 NOH 是中國第一個可大規模落地的城市導航輔助駕駛,搭載毫末城市 NOH 的車型將在 2023 年上市。
預計在2024年上半年落地城市達到100個。
毫末智行雖然成立僅三年時間,但已經穩居中國量產自動駕駛第一名。
憑借此次發佈的智算中心綠洲,毫末在自動駕駛領域的身位將持續靠前。
自動駕駛行業已經進入以商業化量產為主的下半場競爭。
據不完全統計,除北上廣之外,深圳、重慶、長沙等40多個省市,都積極出臺相應管理辦法或實施細則,從載人測試、道路測試、示范運營到無人化等多個階段開展探索,大力推進自動化駕駛。
同時,據《中國自動駕駛乘用車市場數據追蹤報告》發佈的數據顯示,2022年1季度國內L2級自動駕駛在乘用車市場的新車滲透率已達23.2%。
汽車之家研究院最新的一組報告預測,到2025年,中國L2級以上智能汽車銷量將超過1000萬輛,相應的智能汽車滲透率將達到49.3%。
與數據形成對比的,則是國內企業在自動駕駛賽道中激進的態度。
除了毫末外,百度此前宣佈將於2023年打造全球最大無人駕駛服務區,華為計劃將在2025年成為中國自動駕駛領導者。
小馬智行則表示2025年無人駕駛講迎來真正的商業化應用。
與此同時,隨著自動駕駛商業化落地競爭的開始,不管是走漸進式路線,還是跨越式路線,亦或者是純感知路線,或多傳感器融合路線,最終大家的目的都在殊途同歸,即加速自動駕駛技術的量產落地,搶占自動駕駛決賽入場資格。
有業內人士表示,預計到2025年,自動駕駛行業的入場券將會截止。
而作為國內走在自動駕駛量產前列的企業,毫末智行無疑已經獲得2025決賽入場資格證。
張凱曾提到,數據是驅動自動駕駛成熟的核心要義,漸進式路線是數據積累的最佳路徑。
如今,隨著智算中心綠洲的出現,毫末對數據和大模型的應用越來越嫻熟,自動駕駛再進一步已是順理成章。