100萬輛車、100座城市,解讀長城毫末的數據自動駕駛時代 | 硬核時間。

每天打卡閱讀

更深刻理解汽車產業變革

出品:電動星球 News

作者:毓肥

今天下午,長城旗下自動駕駛技術公司毫末智行舉辦了第7屆AI Day。

從去年開始,我們一直在關注著毫末智行。

原因有很多:國內首批推出城市領航輔助駕駛的廠商《魏牌摩卡《參數丨圖片》》之一;高通進入智能駕駛市場的首批合作夥伴;首批宣佈自研自動駕駛訓練超算中心的國產廠商;等等。

到了2023年,毫末智行對自己定了個新目標:「沖刺進入自動駕駛3.0時代」。

也就是依靠數據驅動,使用大模型訓練,數據規模超過1億公裡的自動駕駛技術模式。

為此,毫末智行搭建了號稱「中國自動駕駛行業最大智算中心」雪湖·綠洲,並且為其打造了面向大規模訓練的數據引擎、文件讀寫系統,號稱訓練效率提升了100倍。

100萬輛車、100座城市,解讀長城毫末的數據自動駕駛時代 | 硬核時間。

而站在消費者的角度,毫末智行還表示到2024年,長城旗下搭載其輔助駕駛技術的量產車,將會超過100萬輛,重感知的城市NOH將會覆蓋超過100座城市。

「2023城市NOH大規模落地、2024落地中國100城、2025全面邁向無人駕駛時代」,這是毫末智行CEO顧維灝今天下午做的總結。

毫末智行和長城汽車的智能駕駛真的要崛起了?超算中心和數據引擎對汽車行業有什麼作用?

我們今天來看看毫末智行2023的第一場發佈會。

一、自研超算和數據閉環

直接上主菜:毫末智行的自研超算中心,「雪湖·綠洲」。

這一段先說雪湖,因為它是毫末智行在「大模型大數據」時代下的基石。

持續迭代、模型訓練、數據處理…毫末的自動駕駛數據閉環,其實就建立在雪湖的計算能力上。

那雪湖的算力是多少?670Peta,也就是67億億次,由於深度學習和常規超算的算力精度不能直接比較,我們很難定位雪湖在超算界的排名——但可以簡單對照一下,特斯拉自研的DOJO超算,算力大概是1800+PetaFLOPS。

算力是基石,算力和數據的高效協同,才是最終決定數據閉環效率的關鍵。

為此,毫末智行最終和字節跳動旗下的火山引擎共同打造雪湖。

火山引擎此前已經有不少自動駕駛數據領域的運維積淀,同時提供了完整的服務工具鏈,包括數據快遞、車端上傳等等。

那麼,毫末智行如何利用雪湖的67億億次算力?

1.首先是提高小文件吞吐能力。

自動駕駛數據是由大量片段式短視頻、多模態傳感器信號組成的,顧維灝表示數據時代,自動駕駛的文件量可以達到百億級別。

於是,除了算力本身,毫末還要保證這些文件可以快速傳輸、快速讀寫。

我們在今天AI Day之前采訪了毫末智行技術副總裁艾銳,他表示目前業內自動駕駛訓練的瓶頸並不是在GPU本身,而是在文件的傳輸和讀寫上。

回到2021年特斯拉AI Day,DOJO服務器的介紹環節,幾乎2/3都在強調帶寬、速率和存儲,留給算力的隻有最後幾分鐘,文件傳輸的重要性也可見一斑。

而除此之外,毫末還要克服transformer模型越來越大、算法迭代越來越快,對服務器本身提出的新要求。

於是,火山引擎和毫末打造的雪湖,可以實現最高800G的網絡帶寬,而火山引擎提供的VePFS文件系統則可以實現2T每秒的讀取速度,最高支持PB級別的數據量。

除此以外,雪湖超算的芯片供應商——英偉達,幫助毫末在硬件層級實現了600G每秒的雙向芯片級傳輸速度。

最終,毫末表示雪湖對transformer類模型的有效算力,可以提升3倍以上。

2.然後,是提升自動駕駛數據的利用效率。

目前自動駕駛一個完整的數據文件,包括視頻、毫米波、激光雷達等一系列信號,它們用時間戳的順序串聯起來,就是一個完整的clip片段。

隨著技術發展,如今單個clip文件越來越大,這裡包含了傳感器參數進步、數量增加,同時還包括多幀采樣的進化《比如以前每秒隻采樣幾幀,現在是整個clip都要做標註》,最終的結果就是小文件越來越多。

除了加大傳輸帶寬以外,毫末還根據自動駕駛文件的特點,自研了一套文件系統,叫HMFS《毫末文件系統》。

這套系統本質上是針對超大規模《百億級》小文件的篩選、索引、整理、標記,可以理解為一個高效的檔案室。

具體有多高效?毫末表示小文件的讀寫延遲可以低至500微秒《0.5毫秒》,艾銳告訴我們,隻有達到這樣的延遲,才能滿足幾百萬個clip同時訓練。

顧維灝還表示,HMFS可以讓百PB級別的數據篩選速度比以前提升10倍,從而進一步削減數據瓶頸,將GPU利用率從60%提升到接近80%。

除此之外,毫末今天還發佈了自己的多任務並行訓練系統,號稱可以將訓練效率提升100倍。

3.算力、數據之間的高效協同,最終為快速迭代做準備。

今天毫末一次性披露了五個大模型,它們的核心目的,則是解決自動駕駛中的一些關鍵問題。

3.1.首先是視覺監督模型。

4D Clip,指的是包含時間數據的完整自動駕駛場景。

比如一個5秒的場景,可能包含150幀視頻,以及其他的毫米波、激光雷達信號。

4D Clip和以往隔一段時間標記一幀的自動駕駛訓練相比,帶來的不僅是訓練量的負擔,還要求訓練者用更高效的方式標註海量數據。

毫末的視覺監督模型,原理是基於Finetune預訓練模型,先人工少量標註關鍵clip,訓練出一個檢測跟蹤模型,然後提取海量視頻裡面的小部分關鍵幀,再用這個模型實現單幀到clip的轉化。

關鍵看療效,毫末表示視覺監督模型降低了98%的標註成本,這個數字還是很嚇人的。

3.2.3D重建模型

3D重建其實很好理解,就是用算法還原2D視頻拍到的3D世界。

這裡毫末也是使用了業界比較新的NeRF算法,NeRF一個經典應用是VR,蘋果就曾展示過用10s短視頻重構人類動作的NeRF應用;另一個就是購物軟件中的拍照搜寶貝。

將NeRF應用到自動駕駛訓練中之後,毫末表示感知的錯誤率在原來的基礎上降低30%以上。

3.3.多模態互監督

互監督,本質上是一種「校對」,毫末的互監督是用激光雷達「監督」攝像頭。

互監督算是屬於預訓練的范疇,毫末是通過激光雷達的監督信號,提升視頻數據對現實場景的表達準確度,顧維灝表示互監督的效果比毫末預期的要更好。

3.4.動態環境

除了毫末,包括小鵬、蔚來等等,都在強調「重感知、輕地圖」。

以毫末為例,官方表示他們基本隻會使用地圖裡面的「拓撲信息」,也就是基本隻保留道路最關鍵的走向、轉彎等等。

即使這樣,毫末突然發現地圖具有延遲性,動態環境模型就是讓車輛本身的感知能力進一步加強。

以保定和北京為例,毫末的動態環境模型,號稱可以在85%的路口上,實現95%的預測準確率。

3.5.人駕自監督

人駕自監督就更好理解了,人類司機反哺數據訓練,這種方法典例就是最近爆火的ChatGPT。

毫末的人駕自監督,其實也是使用了ChatGPT背後的RLHF(Reinforcement Learning from Human Feedback,從人類反饋中強化學習》,這種方法首見於2022年3月一篇論文《Training language models to follow instructions with human feedback》。

簡單解釋下就是,人類司機的每一次接管,都會被認為是對人駕自監督模型的一次反饋feedback,最終毫末表示可以讓一些公認的困難場景,例如掉頭、環島等,通過率提升30%以上。

二、100萬輛、100座城

以上說過的所有技術創新,最終都要為量產服務。

2023年毫末的目標,是提升HPilot的細分表現,比如復雜障礙物交互,以及更強的路口通過性,以及下半年會推送的「免教學長距離泊車」。

到了2024,毫末將落地「全場景」NOH——有意思的是,小鵬也將全場景XNGP落地的時間定在了2024。

這也意味著,業界正在將2024定義為「全場景輔助駕駛」的競爭大年。

毫末智行董事長張凱今天下午說的,是到了2024年,全場景NOH將完整落地中國超過100個城市。

而在此之前的2023,則是全行業為了全場景輔助駕駛,加速奔跑的一年。

回到毫末本身,張凱表示今年的毫末智行,在乘用車智能駕駛領域將會聚焦於裝機量、落地城市,以及大模型訓練——也就是小標題裡面說的100萬輛車、100座城市NOH落地城市。

毫末手裡的牌不少,長城和魏牌的量產和銷量優勢、高通方案的高算力《單芯片360T,四芯片1440T》,以及這次公佈的自研訓練超算。

但同樣地,毫末面臨的挑戰也不少。

比如,可以做全量數據采集的量產車夠不夠多?雖然艾銳向我們表示希望將一些功能和數據采集,做到算力更低的平臺,但高算力方案的普及率,依然直接決定了一套數據閉環的量產天花板。

希望毫末能夠帶給我們更亮眼的量產成果。

《完》