DriveGPT自動駕駛大模型中國玩家首發!1200億參數,毫末智行出品。

賈浩楠 發自 凹非寺量子位 | 公眾號 QbitAI

早知道會有這一天,但沒想到如此快:

GPT技術,『上車』!

DriveGPT,首個應用GPT模型和技術邏輯的自動駕駛算法模型,正式官宣,中文名雪湖·海若

可能你已經猜到背後的玩家:毫末智行

國內第一個將Transformer大模型引入自動駕駛、第一個自建超算、輔助駕駛量產落地進展第一…

尤其在自動駕駛研發端,毫末總是搶先別人一大步實踐最前沿技術。

而事後的進展又證明,毫末總是對的。

那麼這次——掀起新一輪AI行業革命,震動圈內圈外的大模型GPT,毫末到底如何把它用在自動駕駛上?

DriveGPT是什麼?『上車』有什麼用?

ChatGPT的震撼之處,在於它對現今人類涉足過的幾乎各個領域都有基本正確的認知理解 ,針對簡單的議題,還能給出比普通人更全面更恰當的回答。

賦予ChatGPT能力的的根源,從名字上就可以拆解出來。

首先是Chat,說明它本身是面向自然語言處理任務開發的,它目前的訓練數據、方式、輸出等等都是基於文本。

而真正把數據價值發揮出來,是GPT,全稱Generative Pre-trained Transformer,生成式預訓練大模型。

DriveGPT自動駕駛大模型中國玩家首發!1200億參數,毫末智行出品。

『大』的基礎上,生成才是關鍵。

對應到自動駕駛上,DriveGPT同樣應用這樣的思路,隻不過訓練的數據從語言文本,變成了圖片、視頻等等自動駕駛數據。

毫末智行的雪湖·海若,實現過程分為3步:

首先在預訓練階段引入量產智能駕駛數據,訓練出一個初始模型,相當於一個具備基本駕駛技能的AI司機。

然後再引入量產數據中高價值的用戶接管片段《Clips形式》,訓練反饋模型。

而不同Corner Case的依次迭代,相當於針對不同駕駛任務挑戰分別強化AI司機的技能。

接下來就是通過強化學習的方法,使用反饋模型不斷優化迭代初始模型。

所謂『生成』,反饋模型能夠實時根據當前交通流情況,生成不同的針對性場景,訓練初始模型。

而完成迭代後,模型也能對同一任務目標生成不同的策略方案。

比如如果本車目標是通過擁堵路口,雪湖·海若能夠給出三種方案供系統決策。

在打造DriveGPT時,毫末在雪湖·海若的幾個過程中分別做了獨特的工作。

首先初始模型預訓練的數據,來自毫末已經量產積累的4000萬公裡實際道路數據,使得模型一開始就具有明顯的量產實用價值,這是雪湖·海若得天獨厚的條件。

ChatGPT中使用自然語言單字作為token輸入,根據模型根據概率分佈來生成下一個字符。

而在雪湖·海若這裡,毫末重新定義了50萬個新的token,包括障礙物、車道線、行人等等,作為一種全新的『自動駕駛語言』。

DriveGPT輸入是感知融合後的文本序列,輸出是自動駕駛場景文本序列。

其次,大模型對計算能力提出很高的要求,包括算力資源的彈性調度、底層算子性能、訓練穩定性等等,毫末與火山引擎一同在算力端做了大量優化。

最後,還會根據輸入端的提示語以及毫末CSS自動駕駛場景庫的決策樣本去訓練模型,讓模型學習推理關系,從而將完整駕駛策略拆分為自動駕駛場景的動態識別過程,完成可理解、可解釋的推理邏輯鏈生成。

雪湖·海若目前共有1200億參數量,據毫末初步估計,在RLHF加持下,困難場景通過率提升48%左右。

ChatGPT自動駕駛版——雪湖·海若的『上車』,其實是一個類比,模型本身始終部署在雲端。

對於車端用戶,雪湖·海若的價值卻是能夠快速兌現的。

比如具體功能上,生成式模型能夠做到智能捷徑推薦、困難場景自主脫困、智能陪練等等。

而中長期來看,它首先能夠加速城市領航輔助功能《毫末NOH》落地,而且是重感知不依賴高精地圖量產方案,領先業內一年以上。

GPT上車,為什麼是毫末?

大模型在自動駕駛上的應用,其實早已有之。

尤其是毫末,最早認識到源自NLP領域的大模型在視覺領域同樣具有巨大的潛力,通過超大規模模型、超大算力實現自動駕駛系統的快速迭代。

顧維灝2021年提出Transformer的應用,一直踏實於技術。

毫末智行可以算是中國的自動駕駛大模型先驅。

大模型的應用,自然要求大算力,於是,毫末又成為國內第一個選擇自建超算中心的自動駕駛公司。

毫末從來不是一個循規蹈矩的AI公司,總是在追逐技術最前沿,甚至有些『趕時髦』。

去年毫末發佈的中國首個自動駕駛數據智能體系MANA,經過一年多時間的應用迭代,現在到了全面升級,開放賦能行業的階段。

另外,毫末從創立之初就堅定走數據驅動的技術路線,並建設了智算中心OASIS,基於L2輔助駕駛系統的大規模前裝量產形成了數據智能閉環體系,在迭代速度和成本優化上實現良性循環。

具體到技術理念,大模型層面的Transformer和這次的雪湖·海若,而自動駕駛感知和數據層面,毫末也是最早應用BEV以及Clips的團隊。

而每一個毫末率先實踐的技術理念,隨後很快就在技術、商業進展上兌現了價值。

毫末的野心絕不是Tier1,而是一家人工智能公司。

量產落地方面,毫末智行的智能駕駛系統已經累計了超過4000萬公裡的用戶實際使用裡程。

另外除了大股東長城汽車之外,毫末智行還另外獲得了2家主要主機廠的項目定點。

研發層面,除了4000萬公裡的實際裡程,毫末的MANA數據智能體系學習時長已經超過56萬小時,相當於6.8萬年駕齡的老司機。

在無人物流賽道,毫末自研的小魔駝已經完成配送超過16萬單。

根據毫末智行董事長張凱判斷:『2023年智駕產品進入全線爆發期,大模型開啟在車端的落地應用,車主的使用頻率和滿意度成為產品競爭力的重要衡量標準。

毫末不斷進步的數據驅動的六大閉環能力將進一步加速毫末進入自動駕駛3.0時代的步伐並形成相應的護城河』

毫末智行董事長張凱

毫末執行展現出來的,是自動駕駛公司裡最懂如何量產落地的、Tier1裡最懂自動駕駛技術的、在有量產數據積累的公司中最懂如何真正數據閉環的。

所以毫末『追時髦』的背後,其實是對AI本質的認知,以及對自動駕駛量產的理解在驅動。

Transformer、BEV、Clips等等技術理念,行業內現在幾乎所有玩家都在跟進,已經成為沒有爭議的主流。

所以歷次毫末AI Day,也成了自動駕駛重要風向標。

這次第八屆大咖雲集,包括董揚、朱西產、田奇…影響力越來越大.

毫末智行的三年,可以看成是自動駕駛落地最快的三年。

自動駕駛新希望

GPT『上車』,不是毫末這次唯一的『率先』。

除雪湖·海若之外,毫末智行在感知智能環節也做了新的探索。

在特斯拉之後,毫末智行在中國開始驗證能否使用魚眼相機代替超聲波雷達進行測距,以及如何使用純視覺NeRF網絡重建高精度3維模型,並同時完成自動標註。

MANA感知模塊,一方面可同時學習三維空間結構和圖片紋理,並將純視覺測距精度超過了超聲波雷達,BEV方案也擁有了更強的通用性和適配性。

另一方面可實現單趟和多趟純視覺NeRF三維重建,道路場景更逼真,肉眼幾乎看不出差異。

通過NeRF進行場景重建後,可以編輯合成真實環境難以收集到的Corner Case。

目前行業裡最難的視覺任務之一——單目視覺測量,特斯拉後,毫末把視覺BEV感知框架引入到了車端魚眼相機,做到了在15米范圍內達到30cm的測量精度,2米內精度高於10cm的視覺精度效果。

毫末在視覺感知能力上的進步,落到量產階段最直觀的體現是同等能力前提下,智能駕駛硬件成本更低《取消各種雷達》,功能進一步下放主流價位車型。

其實除了毫末,業內幾乎所有玩家都走上了這樣一條道路。

這也是自動駕駛行業對去年以來遇到的『瓶頸』最直白的回答——

技術換時間,規模化部署和成本下探加速再加速。

誰能率先掌握低成本高效率的數據利用能力,誰就能最快看到全無人駕駛的曙光。

毫末智行CEO顧維灝

毫末智行CEO顧維灝認為:『基於真實用戶場景的反饋數據能夠讓我們更好的優化產品,讓產品進步的更快。

所有技術都要轉化為對人有用的產品才最有價值』

智能駕駛規模化普及更加明明朗,帶來的自然是數據收集從量變躍遷到質變,而這需要的正是類似DrivieGPT的能力。

所以毫末智行率先把GPT用在自動駕駛,是給自動駕駛大規模普及帶來了新的希望。

僅就毫末智行來說,雪湖·海若投入使用給業務帶來的提升,至少有三個層面。

短期來看,最早上車的長城魏牌車主用戶,能享受更加好用強大的智能駕駛功能;中期來看,目前各家爭奪的城市領航輔助功能,毫末借助大模型的迭代效率,很有可能在年內實現規模化上線《並非隻在一兩個城市》。

而長期來看,毫末智行將自動駕駛各個環節接入雪湖·海若之後,會進一步加速純視覺方案能力的提升和成本下降,實現數據規模從量變到質變,從而最終實現端到端自動駕駛。

這本身具有顛覆性、跨越性的意義,將重塑汽車智能化技術路線。

雪湖·海若上線的同時,毫末還向B端合作夥伴開放系統,共同探索大模型在機器人、芯片等等行業的潛力。

ChatGPT的出現,讓人們看到深度學習引領的AI熱潮非但沒有瓶頸,反而更劇烈的爆發,甚至指向了AGI《通用人工智能》可能的落地前景。

同樣,毫末的雪湖·海若,除了加速自身業務,也指向了一條新的通向更高階全無人自動駕駛的可能之路。

今後對自動駕駛實力的評判參考,除了落地速度、使用體驗,最核心的還會加一條:大模型大數據能力。

One more thing

海若,出自《莊子·秋水》。

文中有兩個神話人物河伯和海若。

河伯請教海若,何謂大小之分,海若教導,不因天地而覺大,不因毫末而覺小。

『海若』,寓意著智慧包容、海納百川。

『雪湖』又是從何而來,你知道嗎?