當GPT遇到自動駕駛，毫末首發DriveGPT。

GPT之於自動駕駛意味著什麼？

文丨智駕網黃華丹

ChatGPT帶火了AI，那麼，當GPT遇到自動駕駛，又會發生怎樣的化學反應？

GPT全稱Generative Pre-trained Transformer，即生成式預訓練Transformer。

簡單概括即是一種基於互聯網可用數據訓練的文本生成深度學習模型。

4月11日，在第八屆毫末AI DAY上，毫末CEO顧維灝正式發佈了基於GPT技術的DriveGPT，中文名雪湖·海若。

DriveGPT能做到什麼？又是如何構建的？顧維灝在AI DAY上都做了詳細解讀。

此外，AI DAY還展示了毫末自動駕駛數據體系MANA的升級情況，主要是其在視覺感知能力上的進展。

01.

什麼是DriveGPT？能實現什麼？

顧維灝首先講解了GPT的原理，生成式預訓練Transformer模型本質上是在求解下一個詞出現的概率，每一次調用都是從概率分佈中抽樣並生成一個詞，這樣不斷地循環，就能生成一連串的字符，用於各種下遊任務。

以中文自然語言為例，單字或單詞就是Token，中文的Token詞表有5萬個左右。

把Token輸入到模型，輸出就是下一個字詞的概率，這種概率分佈體現的是語言中的知識和邏輯，大模型在輸出下一個字詞時就是根據語言知識和邏輯進行推理的結果，就像根據一部偵探小說的復雜線索來推理兇手是誰。

而作為適用於自動駕駛訓練的大模型，DriveGPT雪湖·海若三個能力：

1.可以按概率生成很多個這樣的場景序列，每個場景都是一個全局的場景，每個場景序列都是未來有可能發生的一種實際情況。

2.是在所有場景序列都產生的情況下，能把場景中最關注的自車行為軌跡給量化出來，也就是生成場景的同時，便會產生自車未來的軌跡信息。

3.有了這段軌跡之後，DriveGPT雪湖·海若還能在生成場景序列、軌跡的同時，輸出整個決策邏輯鏈。

也就是說，利用DriveGPT雪湖·海若，在一個統一的生成式框架下，就能做到將規劃、決策與推理等多個任務全部完成。

具體來看，DriveGPT雪湖·海若的設計是將場景Token化，毫末將其稱為Drive Language。

Drive Language將駕駛空間進行離散化處理，每一個Token都表征場景的一小部分。

目前毫末擁有50萬個左右的Token詞表空間。

如果輸入一連串過去已經發生的場景Token序列，模型就可以根據歷史，生成未來所有可能的場景。

也就是說，DriveGPT雪湖·海若同樣像是一部推理機器，告訴它過去發生了什麼，它就能按概率推理出未來的多個可能。

一連串Token拼在一起就是一個完整的駕駛場景時間序列，包括了未來某個時刻整個交通環境的狀態以及自車的狀態。

有了Drive Language，就可以對DriveGPT進行訓練了。

毫末對DriveGPT的訓練過程首先是根據駕駛數據以及之前定義的駕駛嘗試做一個大規模的預訓練。

然後，通過在使用過程中接管或者不接管的場景，對預訓練的結果進行打分和排序，訓練反饋模型。

也就是說利用正確的人類開法來替代錯誤的自動駕駛開法。

後續就是用強化學習的思路不斷優化迭代模型。

在預訓練模型上，毫末采用Decode-only結構的GPT模型，每一個Token用於描述某時刻的場景狀態，包括障礙物的狀態、自車狀態、車道線情況等等。

目前，毫末的預訓練模型擁有1200億個參數，使用4000萬量產車的駕駛數據，本身就能夠對各種場景做生成式任務。

這些生成結果會按照人類偏好進行調優，在安全、高效、舒適等維度上做出取舍。

同時，毫末會用部分經過篩選的人類接管數據，大概5萬個Clips去做反饋模型的訓練，不斷優化預訓練模型。

在輸出決策邏輯鏈時，DriveGPT雪湖·海若利用了prompt提示語技術。

輸入端給到模型一個提示，告訴它『要去哪、慢一點還是快一點、並且讓它一步步推理』，經過這種提示後，它就會朝著期望的方向去生成結果，並且每個結果都帶有決策邏輯鏈。

每個結果也會有未來出現的可能性。

這樣我們就可以選擇未來出現可能性最大，最有邏輯的鏈條駕駛策略。

可以用一個形象的示例來解釋DriveGPT雪湖·海若的推理能力。

假設提示模型要『抵達某個目標點』，DriveGPT雪湖·海若會生成很多個可能的開法，有的激進，會連續變道超車，快速抵達目標點，有的穩重，跟車行駛到終點。

這時如果提示語裡沒有其他額外指示，DriveGPT雪湖·海若就會按照反饋訓練時的調優效果，最終給到一個更符合大部分人駕駛偏好的效果。

02.

實現DriveGPT毫末做了什麼？

首先，DriveGPT雪湖·海若的訓練和落地，離不開算力的支持。

今年1月，毫末就和火山引擎共同發佈了其自建智算中心，毫末雪湖·綠洲MANA OASIS。

OASIS的算力高達67億億次/秒，存儲帶寬2T/秒，通信帶寬達到800G/秒。

當然，光有算力還不夠，還需要訓練和推理框架的支持。

因此，毫末也做了以下三方面的升級。

一是訓練穩定性的保障和升級。

大模型訓練是一個十分艱巨的任務，隨著數據規模、集群規模、訓練時間的數量級增長，系統穩定性方面微小的問題也會被無限放大，如果不加處理，訓練任務就會經常出錯導致非正常中斷，浪費前期投入的大量資源。

毫末在大模型訓練框架的基礎上，與火山引擎共同建立了全套訓練保障框架，通過訓練保障框架，毫末實現了異常任務分鐘級捕獲和恢復能力，可以保證千卡任務連續訓練數月沒有任何非正常中斷，有效地保障了DriveGPT雪湖·海若大模型訓練的穩定性。

二是彈性調度資源的升級。

毫末擁有量產車帶來的海量真實數據，可自動化的利用回傳數據不斷的學習真實世界。

由於每天不同時段回傳的數據量差異巨大，需要訓練平臺具備彈性調度能力，自適應數據規模大小。

毫末將增量學習技術推廣到大模型訓練，構建了一個大模型持續學習系統，研發了任務級彈性伸縮調度器，分鐘級調度資源，集群計算資源利用率達到95%。

三是吞吐效率的升級。

在訓練效率上，毫末在Transformer的大矩陣計算上，通過對內外循環的數據拆分、盡量保持數據在SRAM中來提升計算的效率。

在傳統的訓練框架中，算子流程很長，毫末通過引入火山引擎提供的Lego算之庫實現算子融合，使端到端吞吐提升84%。

有了算力和這三方面的升級，毫末可對DriveGPT雪湖·海若進行更好的訓練迭代升級。

03.

MANA大升級，攝像頭代替超聲波雷達

毫末在2021年12月的第四屆AI DAY上發佈自動駕駛數據智能體系MANA，經過一年多時間的應用迭代，現在MANA迎來了全面的升級。

據顧維灝介紹，本次升級主要包括：

1.感知和認知相關大模型能力統一整合到DriveGPT。

2.計算基礎服務針對大模型訓練在參數規模、穩定性和效率方面做了專項優化，並集成到OASIS當中。

3.增加了使用NeRF技術的數據合成服務，降低Corner Case數據的獲取成本。

4.針對多種芯片和多種車型的快速交付難題，優化了異構部署工具和車型適配工具。

前文我們已經詳細介紹了DriveGPT相關的內容，以下主要來看MANA在視覺感知上的進展。

顧維灝表示，視覺感知任務的核心目的都是恢復真實世界的動靜態信息和紋理分佈。

因此毫末對視覺自監督大模型做了一次架構升級，將預測環境的三維結構，速度場和紋理分佈融合到一個訓練目標裡面，使其能從容應對各種具體任務。

目前毫末視覺自監督大模型的數據集超過400萬Clips，感知性能提升20%。

在泊車場景下，毫末做到了用魚眼相機純視覺測距達到泊車要求，可做到在15米范圍內達測量精度30cm，2米內精度高於10cm。

用純視覺代替超聲波雷達，進一步降低整體方案的成本。

此外，在純視覺三維重建方面，通過視覺自監督大模型技術，毫末不依賴激光雷達，就能將收集的大量量產回傳視頻轉化為可用於BEV模型訓練的帶3D標註的真值數據。

通過對NeRF的升級，毫末表示可以做到重建誤差小於10cm，並且對於場景中的動態物體也能做到很好的重建和渲染，達到肉眼基本看不出差異的程度。

此外，由於單趟重建有時會受到遮擋的影響，不能完整的還原三維空間，毫末也嘗試了多趟重建的方式，即多輛車在不同時間經過同一地方，可以將數據合在一起做多趟重建。

顧維灝表示，目前毫末已經實現了更高的場景還原度，重建效率提升5倍，同時，還可在重建之後編輯場景合成難以收集的Corner Case。

此外，毫末也訓練了一個可以在靜態場景做虛擬動態物體編輯的模型，並且可以控制虛擬物體在場景中按照設定的軌跡運動，以更加高效的合成各種hardcase，使系統能夠見識到足夠多的corner case，低成本的測試自身的能力邊界，提升NOH應對城市復雜交通環境的能力。

顧維灝表示，毫末DriveGPT雪湖·海若大模型的成果將在搭載毫末HPilot3.0的新摩卡DHT-PHEV《參數丨圖片》上首發落地。

同時，顧維灝也表示，毫末DriveGPT雪湖·海若大模型將對生態夥伴開放。

【關注智能汽車，關注智駕網視頻號】

合作or新聞線索提供，聯系郵箱：[email protected]

毫末智行，首推自動駕駛「ChatGPT」。

委員建議，立法推動高度自動駕駛規模化商用落地。