自動駕駛鏖戰『大模型』,誰能率先迎來ChatGPT時刻?

特斯拉FSD《Full Self-Drive,完全自動駕駛》進入中國市場還沒有確定性進展,馬斯克卻率先拋出了『爆炸性』的消息。

近期,在回應通用汽車CEO 瑪麗·博拉《Mary Barra》對特斯拉的認可時,馬斯克順勢提出『願意授權Autopilot或FSD給其他車企使用,包括特斯拉其他技術』。

這對整個自動駕駛行業來說無疑是一個重要舉措。

就像幾年前特斯拉免費開放所有專利,極大促進了整個汽車行業的電動化轉型,FSD對外開放授權也將加速自動駕駛技術的量產落地,更多車企或將因此在自動駕駛技術研發進程中受益。

在美國相對成熟的FSD已經被視為行業風向標。

最近在接受CNBC《華爾街直播室》訪談時,馬斯克就曾自信地表示:特斯拉在人工智能上遠遠領先任何企業,甚至沒有任何一家企業能夠稱得上『僅次於特斯拉』

自動駕駛鏖戰『大模型』,誰能率先迎來ChatGPT時刻?

他預測,特斯拉FSD最快今年、最晚不遲於明年就會迎來『ChatGPT時刻』。

突然間300萬輛車就能實現完全自動駕駛,然後很快到500萬輛、1000萬輛』。

自動駕駛從量變到質變的『臨界點』正在加速到來,在國內也能發現明顯趨勢。

盡管FSD還未在中國落地,但國內高階智能駕駛功能已經在高速場景實現大規模量產,在城市場景的落地進程也在加速。

這背後不可忽視的驅動因素就是生成式大模型的賦能。

ChatGPT為代表的AI大模型,已經展示了人工智能技術依靠更多參數和數據,可以打造出像人類一樣交流的AI機器人;同樣思路下打造的自動駕駛,也可以實現像人類一樣開車

01

『GPT』爭相上車

ChatGPT 的成功出圈,使得生成式大模型技術迅速從幕後走向前臺,並在短時間內引爆了全球大模型開發熱潮。

現在大模型正在從文本、語音、視覺等單一模態智能向跨場景、多任務的多模態方向演進,AI 大模型在跨領域內容學習和能力獲取方面實現了質的飛躍,業內人士普遍認為,『所有行業、商業模式都值得基於大模型重做一遍』。

盡管ChatGPT的底層技術是 OpenAI 推出的 GPT 自然語言大模型,基於Transformer架構和無監督預訓練技術所產生,但其內核已經有了AGI《通用人工智能》的影子。

特別是大模型、無監督預訓練、RLHF《基於人類反饋的強化學習》技術,讓ChatGPT實現從量變到質變的超預期進展,給行業帶來很大啟示。

中國科學院院士、汽車動力系統專家歐陽明高曾在接受采訪時說:『ChatGPT出來之後會引發人工智能新一輪的革命,對我們智能駕駛也會產生深遠的影響

馬斯克做的技術路線是基於這條技術路線,就是所謂的大模型、大數據、大算力。

國內毫末智行也是這麼幹的,這條技術路線可能會對智能駕駛技術路線產生深遠影響』

他同時補充道:『為了獲得大數據,必須要大量地賣智能輔助駕駛電動汽車,尤其是城市輔助駕駛今年可能大家會爭先恐後地上市,這也是很重要的技術趨勢』

事實上,生成式大模型技術引發的產業應用和變革,已經被自動駕駛領域的先行者們率先注意到。

早在2019年,特斯拉就將基於深度神經網絡Transformer大模型引入到感知預測中,並在2021年8月的特斯拉 AI DAY 上展示了基於 Transformer 的 BEV(鳥瞰視角) 感知方案,這是大模型技術首次被應用到自動駕駛行業,也是FSD實現『重感知,輕地圖』純視覺路線的關鍵所在。

當時特斯拉激進的純視覺感知方案並不被外界看好。

不過自2020年10月首次對外推送測試FSD以來,FSD Beta 已經迭代至 V11.4版本,從極少數量的內測到如今面向北美所有購買用戶推送,最新駕駛裡程將近2億英裡,並被認為是目前最先進的自動駕駛系統之一。

兩年前,國內的毫末智行也開始探索將 Transformer 大模型技術落地應用到自動駕駛產品當中,也成為國內首家研發落地 BEV 感知技術的自動駕駛公司,並在2022年率先在國內發佈以『重感知』方式實現的城市 NOH 導航輔助駕駛產品。

在對 Transformer 大模型前沿探索的基礎上,毫末智行於今年1月率先推出視覺自監督大模型、3D 重建大模型、多模態互監督大模型、動態環境大模型、人駕無監督認知大模型等五個自動駕駛大模型,成為行業首個將 GPT 大模型技術引用到自動駕駛認知決策當中的自動駕駛公司。

今年4月,基於GPT大模型所具有的生成式、預訓練、人類反饋強化學習等技術優勢,毫末將五大模型進行統一升級為『DriveGPT雪湖·海若』,這也是業內首個自動駕駛生成式大模型。

與ChatGPT類似,DriveGPT的底層模型同樣是采用GPT《Generative Pre-trained Transformer》生成式預訓練大模型技術,通過大規模無監督的數據進行初始模型的生成,本質就是不斷求解下一個詞《Token》出現的概率,並采用Prompt微調方式和RLHF人類反饋強化學習的方式進行模型效果的優化。

現階段毫末 DriveGPT 已經實現了模型架構與參數規模的升級,參數規模達到1200億,預訓練階段引入5000多萬公裡量產車駕駛數據,RLHF 階段引入5萬段人工精選的困難場景接管Clips。

最新上市的新摩卡DHT-PHEV藍山DHT-PHEV以及5月發佈的末端物流自動配送車小魔駝3.0,都搭載了DriveGPT 雪湖·海若的智能駕駛能力,接下來DriveGPT還將逐步應用到城市NOH、捷徑推薦、智能陪練以及脫困場景中。

去年以來,『重感知,輕地圖』的智能駕駛路線開始被行業廣泛采納,包括小鵬、蔚來、商湯、理想等企業也陸續開始探索『大模型上車』,就連擁有地圖測繪資質的華為、百度Apollo也開始轉向基於Transformer的BEV智駕大模型。

理想汽車6月17日推出了自研的認知大模型Mind GPT,並用1.3萬億個token為其進行基座模型訓練,其不依賴高精地圖的城市NOA路線也以大模型訓練為主。

一度被外界認為在智能化領域落後的比亞迪,也正在加快佈局,在高階智能駕駛方面的研發也是圍繞BEV感知等大模型技術展開,計劃今年量產。

如今大模型在自動駕駛中的應用已經成為趨勢。

正如毫末智行CEO顧維灝在2023北京智源大會上所說,自動駕駛在過去二十年的時間沒有完全達成目標,除了傳感器硬件、算力等原因跟不上,還有一個原因可能是方法跟不上,而最可能的實現方法就是以數據驅動,進行AI大模型訓練和部署的方式來實現真正的自動駕駛。

理想汽車CEO李想也曾給出類似判斷:智能駕駛和智能空間都已經進入大模型時代,大模型的研發和訓練是智能電動車企業的必要能力,否則隻會停留在電動車的時代。

02

實現端到端自動駕駛

現階段,毫末DriveGPT主要用於解決自動駕駛的認知決策問題,接下來會持續將多個大模型的能力整合到DriveGPT,最終目標是實現端到端的自動駕駛

特斯拉的路線也是如此,其最新發佈的FSD Beta V11.4版本,也采用了端到端的技術方案,通過不斷迭代最終實現完全自動駕駛。

自動駕駛是一個非常復雜的行動系統,包含了人工智能所需要的感知、認知推理、決策、控制和執行的所有環節,而且安全容錯率低,對技術能力邊界要求極高。

以傳統深度學習小模型算法以及人工規則的方式,更像是流水線工作,數據處理模塊多,流程比較復雜和割裂,難以突破完全自動駕駛要求的能力瓶頸。

而端到端技術方案將此前各模塊的感知、預測集成到一個大模型之中,將攝像頭采集的駕駛場景數據直接從一端輸入至大模型,大模型能夠根據數據計算迅速做出判斷,從另一端向車輛發出控制行為。

也就是說端到端大模型實現了自動駕駛直接從一端輸入圖像數據,一端輸出操作控制,更接近人類的駕駛行為決策,在安全性上也會逐步達到超過人類老司機水平的駕駛能力。

端到端大模型在自動駕駛領域研發已久,早在2016年,英偉達是PilotNet就通過監督學習首次實現了智能駕駛的端到端控制輸出。

但由於技術實現難度高,進展相對緩慢。

一個重要的原因就是可解釋性差。

特別是在決策、控制部分,很難實現用自然語言來解釋。

小鵬汽車自動駕駛副總裁吳新宙就曾表示,小鵬智能駕駛的預測模塊會以深度學習為基礎,但是基於規則的運動規劃、運動控制,一定會長期存在,『對於能用數學解決的問題,暫時不會用深度學習網絡去解決』。

如今,特斯拉和毫末智行已經證明,大模型在感知和預測部分已經實現了深度神經網絡的深度滲透。

在感知方面,特斯拉FSD系統擁有非常強大的純視覺感知方案,特斯拉已引入Occupancy Network《占用網絡》,與激光雷達相比,其視覺的語義感知能力更強。

毫末DriveGPT通過升級後的視覺自監督大模型技術,可以不依賴激光雷達,將收集的大量量產回傳視頻轉化為可用於BEV模型訓練的帶3D標註的真值數據。

由於成本過高,場景識別和數據標註嚴重阻礙了自動駕駛的創新和進步。

毫末基於DriveGPT所建立的4D Clips駕駛場景識別方案,可以使得單張圖片的標註成本降到0.5元,是目前行業平均成本的1/10。

在認知階段,DriveGPT將空間計算Backbone對接駕駛決策,采用更豐富、更全面的感知信息來訓練駕駛決策模型,並結合海量的真實駕駛數據訓練。

更重要的是,毫末DriveGPT的輸出決策邏輯鏈《Chain of Thought》,讓生成的駕駛策略更具有可解釋性。

這也要得益於毫末建立的自動駕駛場景庫,其中包含幾十萬個細分場景,每一個都是自然語言描述的,可理解可解釋,如果把一連串的場景串起來,就能形成一個完整的可解釋的決策過程

長遠來看,端到端的技術模型將成為自動駕駛最理想的解決方案,包括毫末、特斯拉在內,更多企業也開始朝著這個目標努力。

據悉理想AD Max 3.0在規控算法上也依然使用大模型,通過模仿學習的方法讓城市NOA參考大量人類駕駛員的行為決策,讓城市NOA在保證安全、符合交規的前提下實現更像人類駕駛員的決策和規劃。

比亞迪規劃院院長助理兼電子集成部總監韓冰在近期的公開演講中透露,比亞迪基於多相機融合的BEV感知大模型目前覆蓋了持續監測、融合跟蹤以及預測全流程,後續也希望在規控上能轉向深度學習為主,規則為輔,逐步實現感知、預測、決策規劃全流程的數據驅動大模型。

不可否認的是,大模型在自動駕駛領域的應用還處於早期探索階段。

中國工程院院士、清華大學教授、國家智能網聯汽車創新中心首席科學家李克強認為,AI大模型在處理文本、獲取和加工數據、建立場景的訓練和迭代方面的優勢,將會對人機交互智能化和智能駕駛方面起到加速推動作用,大模型的出現會在智能駕駛領域起到非常積極的作用

但他同時也提到,基於大模型開發的自動駕駛,要完全代替人思考、決策還有很長的路要走,實現更深層的應用還要做很多工作

03

自動駕駛的『ChatGPT時刻』

從ChatGPT的發展歷程不難發現,大模型需要大量數據不斷訓練迭代,隻有參數達到一定規模,才能實現量變到質變的『湧現』《emergence》。

數據也是大模型真正賦能自動駕駛的關鍵。

對於特斯拉、毫末智行以及其他玩家來說,這就意味著現階段還需要大量數據來訓練,才能對自動駕駛能力不斷調優和升級。

顧維灝也透露,DriveGPT現階段還處於不斷訓練、不斷優化的過程,當數據規模足夠多,感知才能從獨立傳感器融合的方式進入到多模態傳感器聯合輸出的模式,認知也能逐漸從人工規則發展到可解釋的、場景化地總結出駕駛常識,自動駕駛的體驗效果也會越來越好。

除了大規模的真實路測,來自仿真平臺的虛擬路測同樣非常必要。

傳統的仿真不夠真,同時路測成本又太高,而毫末DriveGPT 可以在雲端實現高效的駕駛能力測評。

一方面,DriveGPT 本身的駕駛水平非常高,可以在雲端通過大模型輸出駕駛決策真值,來對比車端小模型的駕駛效果,實現大規模雲端自動化測評,形成一種『Teacher-Student』模式。

另一方面,由於 DriveGPT 具備很強的自主化能力,相當於一個獨立智能體,通過在駕駛仿真場景中佈置多個智能體,就可以模擬非常復雜的真實交通場景,尤其是針對復雜場景的多車交互與博弈,能給出更真實、更有效的測評結論。

毫末從創立之初,就定下『以數據驅動自動駕駛技術升級』的技術戰略。

其全棧自研的自動駕駛數據智能體系MANA《雪湖》,截至今年4月學習時長超56萬小時,相當於人類司機6.8萬年。

大模型和大數據都離不開大算力的支持。

自動駕駛算法模型訓練是機器學習的典型場景之一,其視覺檢測、軌跡預測與行車規劃等算法模型需要同時完成高並發的並行計算,對算力有著極高的需求,因此智算中心已經被視為自動駕駛研發必不可少的基礎設施。

特斯拉2021年就發佈了獨立的雲端智算中心——Dojo,總計使用了1.4萬個英偉達的GPU來訓練AI模型。

2022年8月,小鵬汽車和阿裡雲合建了智算中心『扶搖』,專門用於自動駕駛模型訓練,算力規模達600PFLOPS,相當於每秒可以完成60億億次浮點運算。

2023年1月,毫末和火山引擎聯合打造了國內自動駕駛行業最大的智算中心——雪湖·綠洲《MANA OASIS》,每秒浮點運算可達67億億次。

顧維灝表示,雪湖·綠洲的性能是為自動駕駛量身定做的,有了智算中心以及訓練框架的持續迭代保障,才能讓大模型連續、穩定、高效地訓練出來。

此外,針對長尾問題《corner case》的處理依然是自動駕駛面臨的主要挑戰。

毫末DriveGPT通過單趟或多趟的純視覺 NeRF 三維重建以及數據生成,可以編輯合成真實環境難以收集到的corner case,為行業提供更低成本、更大規模的自動駕駛能力測試的仿真環境,幫助行業夥伴快速提升自動駕駛技術能力。

一個可以預見的趨勢,通過大模型訓練而來的優秀泛化能力,自動駕駛應對corner case的能力也會越來越高。

值得注意的是,自動駕駛行業處於相對封閉的數字環境中,單一企業很難在數據量方面達到量的積累。

因此有業內人士呼籲,自動駕駛行業的大模型要成功,全自動駕駛行業的數據需要像互聯網數據一樣公開,才有可能探索在自動駕駛領域的天花板

特別是來自真實世界的常見和罕見事故場景,對於提升自動駕駛的安全能力、應該corner case的能力會有極大幫助。

當然這需要監管機構、行業參與者等共同推進。

為了促進智能汽車和自動駕駛的行業發展,毫末也已率先行動,其DriveGPT雪湖·海若的所有能力都將對生態夥伴開放,包括大規模數據的自動化標註、自動駕駛場景仿真測試等能力等,這將大幅降低行業使用數據的成本,同時提高數據質量。

特斯拉對外開放授權FSD,整個行業都將從中受益,但其全棧自研的算法、數據閉環系統等,對於其他車企來說很難完全復制。

無論如何,AI大模型為自動駕駛技術發展註入全新的動力,已經成為不可逆轉的趨勢,包括感知、決策、控制、通信、大數據、雲計算、人工智能等技術都在不斷進步和創新。

作為汽車智能化的重要趨勢和機會,AI大模型將提升汽車的安全性、便利性和舒適性,也將帶來新的商業模式和價值創造,加速整個行業迎來『ChatGPT時刻』