集微網報道,ChatGPT爆火,各行各業在都在討論這一技術帶來的震撼以及在行業的落地應用,汽車行業自然也不例外。
例如,通用汽車正探索如何在汽車中用ChatGPT開發新AI車載助理,中科創達、四維圖新等表示已將ChatGPT應用到智能座艙。
這樣一看,ChatGPT的火,主要是燒到了車載語音交互這塊,還鮮少『深入』自動駕駛領域。
而且,不久前,業內人士還在感嘆,ChatGPT狂飆,自動駕駛趨冷,這樣的超大模型需要的算力、功耗等都在車端佈局,很難實現。
但毫末智行此次的發佈則讓產業界為之一振,打開了一種思路,或許自動駕駛的『ChatGPT時刻』已不是想象。
4月11日,在第八屆毫末AI DAY上,毫末智行發佈了首個應用GPT模型和技術邏輯的自動駕駛算法模型DriveGPT,並正式官宣中文名為『雪湖·海若』。
DriveGPT首發車型是即將量產上市的新摩卡DHT-PHEV。
從ChatGPT到DriveGPT,也是人駕自監督認知大模型的升級
ChatGPT,『Chat Generative Pre-trained Transformer』,被簡單理解為人工智能技術驅動的自然語言處理工具,它能夠通過理解和學習人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務。
除全網熟知的『會聊天的AI』、文字內容助手等身份,更讓各行業關注和震驚的重要原因是,ChatGPT引入新技術RLHF《Reinforcement Learning with Human Feedback,即基於人類反饋的強化學習》。
RLHF解決了生成模型的一個核心問題,即如何讓人工智能模型的產出和人類的常識、認知、需求、價值觀保持一致。
Transformer對於智能駕駛已不陌生,其在NLP《自然語言處理》中奠定了核心地位之後,逐漸被引入計算機視覺領域,後又被特斯拉引入自動駕駛。
緊隨特斯拉,毫末是國內率先開始Transformer大模型技術探索的公司,並快速落地應用到BEV視覺感知算法當中。
對於Transformer的最新成果ChatGPT,曾在今年1月的毫末第七屆 AI DAY上,毫末表示已經對ChatGPT背後技術展開研究,且在毫末看來,實現GPT3到ChatGPT的龍門一躍最重要的是ChatGPT模型使用了『利用人類反饋強化學習RLHF』的訓練方式,更好地利用了人類知識,讓模型自己判斷其答案的質量,逐步提升自己給出高質量答案的能力。
關鍵是如何將ChatGPT應用到自動駕駛?
毫末認為,ChatGPT的技術思路和自動駕駛認知決策的思路是一致的。
在認知駕駛決策算法的進化上,毫末分成了三個階段:
第一個階段是引入了個別場景的端到端模仿學習,直接擬合人駕行為。
第二個階段是通過大模型,引入海量正常人駕數據,通過Prompt《提示語》的方式實現認知決策的可控可解釋。
第三個階段就是引入了真實接管數據,在其中嘗試使用『人類反饋強化學習《RLHF》』。
一般來說,人類司機的每一次接管,都是對自動駕駛策略的一次人為反饋;這個接管數據可以被簡單當成一個負樣本來使用,就是自動駕駛決策被糾正的一次記錄。
同時也可以被當作改進認知決策的正樣本來學習。
這也被毫末稱之為『人駕自監督認知大模型』。
人駕自監督認知大模型是為了讓自動駕駛系統能夠學習到老司機的優秀開車方法,然後穩定地輸出最優解。
據悉,通過這種方式,毫末在例如掉頭、環島等困難場景中,通過率提升30%以上。
而這次發佈的DriveGPT,正是毫末人駕自監督認知大模型的升級。
與ChatGPT同源,DriveGPT如何重塑智能駕駛?
那麼,DriveGPT和ChatGPT有什麼連接點?
與ChatGPT同源,毫末DriveGPT通過引入駕駛數據建立RLHF《人類反饋強化學習》技術,對自動駕駛認知決策模型進行持續優化。
DriveGPT的底層模型也是采用GPT生成式預訓練大模型。
但與ChatGPT使用自然語言進行輸入與輸出不同,DriveGPT輸入是感知融合後的文本序列,輸出是自動駕駛場景文本序列,即將自動駕駛場景Token化,形成『Drive Language』《駕駛語言》,最終完成自車的決策規控、障礙物預測以及決策邏輯鏈的輸出等任務。
DriveGPT實現過程具體要分3步:
首先,在預訓練階段通過引入量產駕駛數據,訓練初始模型,再通過引入駕駛接管Clips數據完成反饋模型《Reward Model》的訓練;
然後,再通過強化學習的方式,使用反饋模型去不斷優化迭代初始模型,形成對自動駕駛認知決策模型的持續優化;
最後,DriveGPT會根據輸入端的提示語以及毫末CSS自動駕駛場景庫的決策樣本去訓練模型,讓模型學習推理關系,從而將完整駕駛策略拆分為自動駕駛場景的動態識別過程,完成可理解、可解釋的推理邏輯鏈生成。
大模型實現過程的背後都離不開算法、算力、數據的支持。
算法方面,毫末選擇走漸進式發展路線,毫末HPilot整體已搭載近20款車型,規模化已成,能從真實使用場景中積累足夠多的數據。
在算力方面,基於毫末年初與火山引擎聯手發佈的中國自動駕駛行業首個也是最大的智算中心——雪湖·綠洲《MANA OASIS》,基於雪湖·綠洲,毫末得以訓練出參數規模達1200億的DriveGPT模型。
數據方面,正是在雪湖·綠洲的加持下,毫末輔助駕駛系統持續迭代,並不斷積累數據,目前用戶使用毫末輔助駕駛的行駛裡程超過4000萬公裡,而這也成就了DriveGPT的數據底座。
其在預訓練階段就引入了這4000萬公裡量產車駕駛數據,為了對生成決策結果進行調優,RLHF還階段引入5萬段人工精選的困難場景接管Clips,讓機器最終可以更好地理解所處環境,並不斷學習作出更優秀的自動駕駛決策。
現階段,DriveGPT主要用於解決自動駕駛的認知決策問題,後續持續會將毫末多個大模型的能力整合到DriveGPT,也可以逐步應用到城市NOH、捷徑推薦、智能陪練以及脫困場景中。
對於普通用戶來說,有了DriveGPT,車輛越來越像老司機,用戶對智能產品的信任感會更強,理解到車輛的行為都是可預期、可理解的。
最終,DriveGPT的『終局』是實現端到端自動駕駛。
自動駕駛的寒冬,ChatGPT與行業的共振帶來一些『花火』
毫末DriveGPT已正式對外開放,開啟對限量首批客戶的合作,北京交通大學計算機與信息技術學院、高通、火山引擎、華為雲、京東科技、四維圖新、魏牌新能源、英特爾等已經加入。
毫末DriveGPT的對外開放及服務,將促進自動駕駛的從業者和研究機構快速構建基礎能力。
開放的第一步是一些數據方面的能力。
接下來,毫末將攜手合作夥伴率先探索包括智能駕駛、駕駛場景識別、駕駛行為驗證、困難場景脫困等四大應用能力。
例如,在駕駛場景識別中,毫末建立起一套基於4D Clips的方案,具備極高性價比。
相比行業上給出正確的標註結果,一張圖片需要5元,如果使用DriveGPT雪湖·海若的場景識別服務,一張圖片的價格將下降到0.5元。
單幀圖片整體標註成本僅相當於行業的1/10。
接下來,毫末會將圖像幀及4D Clips場景識別服務逐步向行業開放使用,這將大幅降低行業使用數據的成本,提高數據質量,從而加速自動駕駛技術的快速發展。
毫末認為,自動駕駛領域和ChatGPT解決的問題比較相似,已經知道了過去10秒的駕駛場景、環境,就要生成接下來下一個時刻,駕駛環境會變成什麼,不斷的生成,即根據歷史的場景不斷生成新的場景。
預測和規控,考驗的正是自動駕駛的認知能力。
因此,毫末希望DriverGPT具有三個能力:
第一個能力,是平行宇宙,知道了過去10秒的事情後,生成了接下來很多個10秒鐘,整個環境的宏觀生成能力;
第二個能力,如果生成了這麼多宏觀環境,在每個宏觀環境裡都要把自車的軌跡量化出來;
第三個能力,是推理的能力,也叫思考鏈,每一個推薦、駕駛策略都有要自己的理由,過去講的自動駕駛是個黑盒,加入這種思考鏈、邏輯鏈條之後,駕駛策略就會更好理解。
毫末設計的DriverGPT核心是,根據過去的場景形成新的場景,即『讓車認知到自己所處的道路環境,並決定下一步怎麼開』。
地平線創始人餘凱也分享過類似的觀點。
在近日舉辦的電動汽車百人會上,餘凱分享到:『最近的ChatGPT給業內很大啟發,它通過更大的數據、更大的模型,利用文本歷史,去預測下一個詞的概率。
同樣的事情,也可以發生在自動駕駛上,通過結合當前的交通環境、導航地圖、駕駛員整個歷史駕駛行為,來預測下一個駕駛動作。
從大量的、無監督的、不需要標註的行為裡面去機器學習,構建一個自回歸的駕駛大語言模型』
但也有不同的觀點。
業內人士表示,ChatGPT是一個大模型,從規模上來說,大模型需要的算力、功耗等都是在車端佈置,這是不現實的,另一方面,大模型強調的是一個通用模型,而在車端要求的是更高精度的一些感知,所以對於模型一般會采用比較特殊的,即專門為這塊領域做的模型。
而某種程度上,從大模型的角度,毫末的DriverGPT和ChatGPT是同源,也是專為自動駕駛而生的生成式大模型,這或許為行業與生成式大模型的融合開了一扇窗。
恰逢自動駕駛的寒冬,ChatGPT與行業的共振無疑可以給到業界一些鼓舞,雖然這還僅僅是很初步的一個開始。
業內人士對集微網表示,ChatGPT已經讓我們看到了生成式大模型人工智能帶來的無限可能,而這也隻是一個開始而已,一個讓AI有了人類思考邏輯的開始。
尤其對於高階自動駕駛,ChatGPT可以提升ADS數據閉環的能力,從數據采集、數據回流、數據處理、數據標註、模型訓練,到測試驗證,其次還能減少海量投入成本,例如在自動駕駛場景中,問題數據通常是在試驗車上收集,極少數車輛能實現在量產車上收集,收集後需要對數據做標註,然後工程師在雲端用新的數據訓練神經網絡模型,重新訓練後的模型通常會通過OTA的方式部署到車端。
『對自動駕駛ADS行業AI化的加速,我們期望可以通過模型的反饋學習訓練方法、數據和場景的交互生成、多模態數據的交互學習和潛在特征空間的分佈理解、以及可理解可解釋的輸出等功能來加速自動駕駛ADS感知和決策的端到端開發進程』上述業內人士展望到。