毫末智行,首推自動駕駛「ChatGPT」。

機器智行原創

作者:於雷

AI大模型 DriveGPT 重塑汽車智能化技術路線。

2 月 17 日,毫末智行預告了即將發佈自動駕駛生成式大模型 DriveGPT。

與近幾個月大火的 ChatGPT 一樣,DriveGPT 同樣都所采用了 Transformer 模型,同時也使用了 RLHF《人類反饋強化技術》算法進行強化訓練;與 ChatGPT 使用自然語言文本進行訓練不同,DriveGPT 使用的是駕駛場景數據進行模型訓練,並通過不斷引入真實人駕接管數據,讓模型自我優化,逐步訓練自己不斷給出更高質量的答案。

昨天《4 月 11 日》,在第八屆 HAOMO AI DAY 上,毫末正式對行業首發了 DriveGPT 自動駕駛生成式大模型,同時也公佈了其中文名「雪湖・海若」。

毫末智行,首推自動駕駛「ChatGPT」。

毫末智行董事長張凱

毫末智行 CEO 顧維灝表示:「DriveGPT 雪湖・海若的目標是實現端到端自動駕駛,現階段主要用於解決自動駕駛的認知決策問題,後續持續會將毫末多個大模型的能力整合到 DriveGPT。

毫末智行CEO顧維灝

同時,毫末還在現場宣佈雪湖・海若的首發車型是魏牌新摩卡 DHT-PHEV,後續將落地到魏牌藍山。

這意味著雪湖・海若將在 2023 年智能駕駛產品競爭中,起到關鍵作用。

「2023 年將是智能駕駛沖刺之年、大考之年。

」毫末智行董事長張凱判斷,「2023 年智駕產品進入全線爆發期,大模型開啟在車端的落地應用,車主的使用頻率和滿意度成為產品競爭力的重要衡量標準。

按照毫末的判斷,這次 DriveGPT 雪湖・海若大模型的發佈,也代表其將加速從軟件驅動的 2.0 時代,跨向大模型、大數據、大算力為特點的數據驅動的自動駕駛 3.0 時代。

什麼是 DriveGPT?

GPT 的全稱是生成式預訓練 Transformer 大模型,主要應用在 NLP 領域,本質上是不斷求解下一個詞《Token》出現的概率。

然後再將這個詞作為下一個時間步的輸入,如此往復進行生成,最終獲得一個連貫、通順的文本。

最近廣受關注的 ChatGPT 就屬於語言類生成式大模型,主要是模擬人類語言行為,根據輸入的文字或圖片生成回答,與用戶交互。

而 DriveGPT 雪湖・海若則是用於自動駕駛場景的生成式大模型,所以毫末智行把 ChatGPT 輸入的自然語言文本串,換成智能駕駛感知到的過去場景,輸出也就變為了包括自車決策規控、障礙物預測以及決策邏輯鏈等條件在內的未來場景。

在這之中,一個重點就是如何將智能駕駛場景,變為和自然語言一樣的 Token,毫末智行給出的答案是 Drive Language。

其基於毫末智行的 CSS 場景庫理論,利用 BEV 網格來做整個空間的離散化,將每一個網格定義為一個固定大小的詞表,這樣輸入代表已發生場景的 Token 序列,就可以根據歷史生成未來的 Token 序列。

目前,毫末智行 Token 化後的詞表空間,已經達到了 50 萬量級。

最終,一連串的 Token 拼起來就是一個完整的駕駛場景時間序列,包括了未來某個時刻的完整交通環境狀態和自車狀態。

顧維灝介紹:「DriveGPT 可以按概率生成很多個這樣的場景序列,每一個場景序列都是未來有可能發生的一種實際情況,這是它的第一個特性。

它的第二個特性是在所有場景序列都產生的情況下,能把場景中我們最關注的自車行為軌跡給量化出來,也就是生成場景的同時,便會產生自車未來的軌跡信息。

這樣一來,在統一的生成式框架下,就可以做到規劃、決策與推理等多個任務全部的完成。

根據規劃,DriveGPT 雪湖・海若現階段主要用於解決自動駕駛的認知決策問題,屬於原本自動駕駛認知大模型的能力升級,後續視頻自監督大模型、3D 重建大模型、多模態互監督大模型、動態環境大模型等模型的能力也將被整合進來。

而 DriveGPT 雪湖・海若的最終目標是實現端到端自動駕駛。

DriveGPT 雪湖・海若

用類 ChatGPT 方法搞定「自動駕駛認知」

DriveGPT 雪湖・海若的訓練,是根據歷史去生成未來所有可能的場景,並根據概率推理出未來一段時間的多個可能。

這一過程利用了大概萬多的接管數據來進行 RLHF 訓練,反饋數據當中就會隱藏了不同場景下錯誤的自動駕駛開法與正確的人類開法。

看到這裡,是不是有很熟悉的味道,那就是 DriveGPT 采用了和 ChatGPT 訓練同源的算法。

而且,雪湖・海若的初始化模型《Pretrain model》共使用了 4000 萬量產車駕駛數據訓練,本身能夠對各種場景做生成式任務,但這些生成結果還需要按照人類偏好去調優,在安全、高效、舒適等維度上做出取舍。

所以,毫末智行為了對生成決策結果進行調優,利用強化學習的思路做了一個打分系統。

簡單的說,在同一環境下,系統與駕駛者判斷一致《不被接管》的行為會打高分,被接管的打低分,還會與將同場景的系統與人類駕駛行為對比,越接近代表越能被真實駕駛者喜歡。

顧維灝表示:「我們通過一個初始化模型《Pre-Train Model》去生成並收集一些候選數據。

然後,通過一個反饋模型給這些數據打分排序,再用強化學習的思路,把反饋模型認為好的結果排上來,差的結果排下去。

最後,把參數更新到一個備份模型《Active Model》中,通過強化學習的方式,DriveGPT 生成的效果就會有一個明顯地提升。

在強化學習階段,毫末智行還在過去搜集到的所有接管數據裡人工挑選出大概 5 萬段能夠覆蓋到各種比較復雜場景、真實駕駛偏好的數據,回灌訓練反饋模型。

有了這個之後,雪湖・海若就能在預訓練模型上加入 Prompt 提示語,模型就可以根據其所代表的特征,將含有決策邏輯鏈《Chain of Thought,CoT》的未來序列重新排序,給出更符合期望的駕駛策略。

「DriveGPT 還能輸出決策邏輯鏈,這裡面利用了 Prompt 提示語技術,輸入端需要給到模型一個提示,告訴它『要去哪、慢一點還是快一點、並且讓它一步步推理』。

經過這種提示後,它就會朝著我們期望的方向去生成結果,並且每個結果都帶有決策邏輯鏈。

每個結果也會有未來出現的可能性。

這樣我們就可以選擇未來出現可能性最大,最有邏輯的鏈條駕駛策略。

」顧維灝介紹。

毫末 CSS 自動駕駛場景庫是 CoT 的重要輸入,擁有超過幾十萬個細顆粒度場景,將 Prompt 提示語和完整決策過程的樣本交給模型去學習,學到推理關系,從而將完整駕駛策略拆分為自動駕駛場景的動態識別過程,完成可理解、可解釋的推理邏輯鏈生成。

AI 大模型基礎設施

MANA OASIS 雪湖・綠洲再升級

DriveGPT 雪湖・海若的訓練和落地,也離不開算力的支持。

毫末智行目前已對其智算中心 MANA OASIS 雪湖・綠洲進行了三大升級,使訓練過程中的穩定性、效率和速度得到有效提升。

首先是避免訓練時出錯導致非正常中斷,浪費前期投入的大量資源。

毫末智行在大模型訓練框架的基礎上,與火山引擎共同建立了全套訓練保障框架,包括 Monitor&Alert、Tracer&Log、Profile&Checkpoint 等功能。

通過訓練保障框架,可以通過集群調度器實時獲取服務器異常、並及時將異常節點從訓練 pod group 中刪除,再結合 CheckPoint 功能,利用 VePFS 高性能存儲和 RDMA 網絡高效分發。

「最終我們實現了異常任務分鐘級捕獲和恢復能力,可以保證千卡任務連續訓練數月沒有任何非正常中斷,有效地保障了 DriveGPT 大模型訓練的穩定性。

」顧維灝表示。

其次是基於量產自動駕駛規模優勢,構建了以真實數據回傳為核心的增量式學習推廣到大模型訓練。

結合增量學習數據以動態數據流的形式,持續不斷將量產回傳和篩選的存量數據,傳入感知和認知 Pre-train 大模型。

系統定時采樣評測模型學習狀態,出現異常快速回滾,持續提取最佳模型版本。

顧維灝介紹:「由於每天回傳的數據不同的時段數據量差異巨大,這就要求我們訓練平臺具備彈性調度能力,自適應數據規模大小。

我們將增量學習技術推廣到了大模型訓,構建了一個大模型持續學習系統,研發了任務級彈性伸縮調度器,分鐘級調度資源,集群計算資源利用率達到 95%。

最後在訓練效率上,毫末智行還針對 Transformer 大矩陣計算,通過對內外循環的數據拆分,盡量保持數據在 SRAM 中,以提升計算的效率。

Transformer 類大模型計算復雜度高,訓練難度大。

傳統訓練框架中存在 PyTorch,算子流程很長等問題,毫末智行通過引入火山引擎提供的 Lego 算子庫實現算子融合,將端到端吞吐提升 84%。

DriveGPT 雪湖・海若落地

能帶來什麼?

按照毫末智行的規劃,雪湖・海若即將應用到毫末第三代智能駕駛系統 HPilot3.0 上。

首先落地的車型是魏牌新摩卡 DHT-PHEV,後續還有魏牌藍山。

雪湖・海若引入車端之後,其決策會讓車輛的動作更絲滑、更人性,且會有合理的邏輯告訴駕駛者,車輛為什麼會選擇這樣的決策動作。

對於普通用戶來說,對車輛的信任感也會增強,可感受到車輛的行為都是可預期、可理解的。

目前,雪湖・海若已實現了模型架構與參數規模的升級,參數規模達到 1200 億,預訓練階段引入 4000 萬公裡量產車駕駛數據,RLHF 階段引入 5 萬段人工精選的困難場景接管 Clips。

不過在未來,雪湖・海若的目標是實現端到端自動駕駛。

在 MANA 五大模型的幫助下,毫末最新的車端感知架構,已從過去分散的多個下遊任務集成到一起,形成一個更加端到端的架構。

這次,雪湖・海若又將 MANA 感知和認知相關大模型能力統一整合起來,打通了感知和認知。

接下來,隨著更多大模型的整合,雪湖・海若也將逐步向著端到端自動駕駛的最終目標進發。

顧維灝稱:「DriveGPT 運用在車端後,未來可在四大場景上將帶來突破,分別是城市 NOH、捷徑推薦、智能陪練、場景脫困。

最終,我們希望能夠抵達自動駕駛的終極場景 —— 無人駕駛。

隨著雪湖・海若的正式發佈,毫末迎來了包括北京交通大學計算機與信息技術學院、火山引擎、華為雲、高通、京東科技、四維圖新、魏牌新能源、英特爾等首批合作夥伴。

毫末還將面向首批合作夥伴逐步開放 DriveGPT 的智能駕駛、駕駛場景識別、駕駛行為驗證、困難場景脫困四大應用能力。

昨天,毫末已經對行業生態夥伴開放了 DriveGPT 的駕駛場景識別能力,同時毫末還將對行業開放一套基於 4D Clips 數據的高性價比的駕駛場景識別方案,其單幀圖片整體標註成本僅相當於行業平均水平的 1/10。

顧維灝介紹:「在行業上,給出正確的標註結果,一張圖片需要大概 5 元。

如果使用 DriveGPT 的場景識別標註服務,一張圖片的價格將下降到 0.5 元。

自動駕駛數據形態的升級和成本的下降,會為自動駕駛技術躍升帶來巨大影響。

AI 大模型下

視覺感知能力持續提升

除了 DriveGPT 雪湖・海若的架構升級和能力升級之外,MANA 視覺感知能力也得到了持續提升。

首先是視覺自監督大模型架構做了擴展,將預測環境的三維結構、速度場和紋理分佈融合到同一個訓練目標裡,訓練後的模型就可以理解場景當中的結構、速度和紋理等核心信息。

比如,這樣輸入前面 K 個時刻的信號,就可以通過 4D 編碼器,提取出相關的動靜態障礙物,路面、天氣、光照等局部和全局的語義信息,形成 4D 特征空間。

有了這個由前面 K 個時刻融合的 4D 特征,再輸入解碼器 3D 空間的位置編碼,就能把後面 H 個時刻的三維結構和紋理信息都恢復。

顧維灝表示:「目前,我們的視覺自監督大模型的數據集超過 400 萬 Clips,感知性能提升 20%。

視覺能力提升之後,毫米智行下一點考慮的是能不能拿掉一些不必要的傳感器,用更低的成本做更多事情。

這裡第一個被關注的是近距離測距任務。

「我們將魚眼相機也引入到視覺 BEV 的感知框架當中,魚眼圖像通過 2D backbone 提取出視覺特征,經過空間轉換映射至 BEV 空間,並在該空間下對於障礙物的輪廓邊界進行識別和測量。

」顧維灝介紹。

目前,毫末智行已經能做到在 15m 范圍內達到 30cm 的測量精度,2m 內精度高於 10cm 的視覺精度效果。

與主流的 USS 超聲波雷達方案相比,其探測距離極限明顯更高,近距離探測精度也不相上下,有能力在泊車場景取代 USS,進一步降低智能駕駛硬件成本。

通過視覺自監督大模型技術,做到不依賴激光雷達,將收集的大量量產回傳視頻轉化為可用於 BEV 模型訓練、帶 3D 標註的真值數據後,毫末智行還在純視覺 NeRF 三維重建方面取得更多進展。

其中,單趟重建做到了誤差小於 10cm,並能對於場景中的車輛等動態物體做到很好的重建和渲染,肉眼基本看不出差異;多趟重建可以提供更多的觀測視角,采用多趟軌跡對齊,提供出更好的重建結果,彌補單趟重建的不足。

通過 NeRF 進行場景重建後,就可以直接編輯合成真實環境難以收集到的 Corner Case,減去采集成本。

其是在原有的全局視角修改、添加光照 / 天氣效果的基礎上,新增合成虛擬動態物體的能力,可以在原有設定的運動軌跡上,合成各種 Hard Case,模擬城市復雜交通環境,用更低成本測試提升城市 NOH 能力邊界,更好提升應對城市復雜交通環境。

毫末智行是國內最早明確「重感知」路線的自動駕駛公司,這些年也一直在大模型、車端感知能力、智算中心方面做出大量努力。

而如今,毫末推出 DriveGPT 雪湖・海若大模型,持續升級視覺感知能力,致力於端到端自動駕駛的路線,這些意味著毫末正在完成數據驅動的關鍵閉環。

這些前沿深奧的 AI 技術如何讓大眾能夠體驗到呢?

毫末張凱表示,毫末將加速推送城市 NOH 的快速落地,最新功能將在摩卡 DHT-PHEV 上開放,明年預計在國內 100 個城市完成落地。