上周和從事AI研究的朋友聊到ChatGPT,對方的一句話,讓我至今心有戚戚。
他提到,未來取代人類的不是AI,而是另一個熟練駕馭AI的人類。
這讓我想到自動駕駛:未來真正取代人類駕駛、或是真正操控人類方向盤的絕不是自動駕駛,而是熟悉駕馭大模型、大數據和大算力的另一群人類。
一場發佈會,又給我了新的思考。
4月11日,毫末智行在其HAOMO AI DAY上,高調發佈了行業首個自動駕駛生成式大模型DriveGPT,中文取名為『雪湖·海若』。
其底層模型,用的正是GPT《Generative Pre-trained Transformer》生成式預訓練大模型,試圖解決自動駕駛領域的認知決策問題。
毫末的速度,確實夠快。
兩年前,特斯拉將Transformer模型引入自動駕駛,作為中國自動駕駛新秀的毫末智行很快跟進,成為國內第一家引入Transformer的出行科技公司。
後來,毫末又推出了國內第一個重感知、不依賴高清地圖的城市駕駛輔助系統,率先破題量產自動駕駛。
有意思的是,即使是特斯拉這樣的頭部公司,往往也是一年才舉辦一次科技日或品牌日。
毫末團隊不一樣,他們把科技發佈會的頻次提升到每季度一次,且似乎每次都能講出用高密度信息,吊足業界胃口,可見自我迭代的要求之高。
這場車展前夕的HAOMO AI DAY,讓我們再次看到了毫末速度,以及毫末速度背後試圖改變人類駕駛的一群人。
總結來說,這次發佈會主要釋放了兩個消息——
一個是毫末智行的城市NOH即將量產,將最先落地北京、上海、保定等城市;一個則是推出全球首個自動駕駛生成式大模型DriveGPT 雪湖·海若,讓業界看到大模型落地應用在車端的另一種可能,AI領域炙手可熱的GPT,終於可以用在自動駕駛領域了。
|DriveGPT|
去年9月的HAOMO AI DAY上,公司CEO顧維灝對外提出了數據驅動的自動駕駛3.0時代,最大的幾個特征,是中大模型與海量數據相結合,數據開啟自訓練模式,自動駕駛裡程由硬件驅動、軟件驅動時代的百萬乃至千萬公裡,飆升到1億公裡。
半年已過。
毫末智行在朝著自動駕駛3.0層級跨越的路上,已經做了不少實踐層面的鋪墊。
例如,他們已經累計了超4000萬公裡輔助駕駛裡程的數據,再如,這些數據還囊括了國內各大縣市的城區、城市快速路和高速,包括感知數據和真實人駕數據。
承上啟下,DriveGPT應運而生。
DriveGPT是目前國內首個自動駕駛生成式大模型,中文名叫雪湖·海若。
海若的命名靈感,來自古代傳說中的海神,最早出自《莊子·秋水》——於是焉河伯始旋其面目,望洋向若而嘆,海若,即北海海神之意。
說到DriveGPT,繞不開ChatGPT。
ChatGPT的全稱是Chat Generative Pre-trained Transformer,相信大家已經很熟悉了,它是人工智能研究實驗室OpenAI發佈的聊天機器人模型,同時也是人工智能驅動的自然語言處理工具。
最為關鍵的,是支持大規模語言模型和生成式預訓練,和以往的AI相比,它還擁有超強的記憶能力、糾錯能力以及思維鏈推理能力等撒手鐧。
毫無疑問,能在全球掀起史詩級的狂歡,ChatGPT已不再是傳統AI的PLUS版本了,但大家好奇的是,DriveGPT憑什麼貼上GPT的標簽?這隻是蹭熱度、搶風口的噱頭,還是真能如ChatGPT一樣湧現出不一樣的顛覆性創新?
毫末是這樣的回答的:
一方面,DriveGPT的底層模型,采用GPT生成式預訓練大模型,隻是與ChatGPT使用自然語言進行輸入與輸出不同,DriveGPT輸入是感知融合後的文本序列,輸出是自動駕駛場景文本序列,即將自動駕駛場景Token化,形成『Drive Language』——
也就是說,ChatGPT最拿手的邏輯推理和預測判斷,被DriveGPT整合到了自動駕駛領域,最終完成自車的決策規控、障礙物預測以及決策邏輯鏈的輸出等任務。
通俗一點講,就是咱們駕駛過程中遇到的車輛、行人、障礙物以及路標路燈等,無論是圖片還是視頻,都被DriveGPT納入屬於自己體系的駕駛處理語言。
目前,毫末智行已重新定義了50萬個新的token,幾乎所有駕駛過程中的場景,都能被token化表達。
另一方面,DriveGPT也引入了RLHF《人類反饋強化學習》技術,對自動駕駛認知決策模型進行持續優化,現階段主要用於解決自動駕駛的認知決策問題,終極目標,是實現端到端自動駕駛。
據毫末智行介紹,DriveGPT目前已實現了模型架構與參數規模的升級,參數規模達到1200億,預訓練階段已引入4000萬公裡量產車駕駛數據,RLHF階段則引入了5萬段人工精選的困難場景接管Clips。
具體實現流程如下:
首先,在預訓練階段引入量產駕駛數據,訓練初始模型。
然後,通過引入駕駛接管Clips數據,完成反饋模型《Reward Model》的訓練,再通過強化學習的方式,使用反饋模型去不斷優化迭代初始模型,形成對自動駕駛認知決策模型的持續優化。
同時,DriveGPT還會根據輸入端的提示語以及毫末CSS自動駕駛場景庫的決策樣本去訓練模型,讓模型學習推理關系,從而將完整駕駛策略拆分為自動駕駛場景的動態識別過程,完成可理解、可解釋的推理邏輯鏈生成。
|毫末,憑什麼?|
目前,DriveGPT還處於雲端模型階段,未來將最先落地應用在新摩卡DHT-PHEV的城市NOH上。
回顧下毫末智行輔助駕駛產品HPilot的成長歷程,三年多的時間已經更新了三代,其中,Hpilot 1.0和Hpilot 2.0此前都已已經量產上車。
此前落地的最新一代的行泊一體產品HPilot 2.0,搭載於長城旗下多款車型上,高速NOH是亮點。
伴隨著Hpilot 3.0《也就是城市NOH》即將在多個城市落地,DriveGPT即將迎來真正的用武之地。
這也意味著,中國首個重感知、不依賴高精地圖的城市NOH即將量產上車,最先落地北京、上海以及保定等城市,且2024年上半年落地將達到100城。
產品落地,一直是毫末的強項。
顧維灝曾在上個月的電動汽車百人會論壇表示,出眾的量產落地能力,一方面要得益於重感知的技術路線,另一方面則是大模型技術應用比較領先,當然,還有該公司的用戶閉環的數據建設,也是領先於業界很多同類公司。
因為這些優勢,毫末智行才能第一個把大規模落地的城市導航駕駛輔助產品交付到客戶手上。
有意思的是,商湯也在前兩天發佈自研類ChatGPT產品,就和毫末智行推出DriveGPT幾乎前後腳,試圖打入通用人工智能《AGI》賽道,背後依托的,其實和毫末智行一樣,手握大模型,大數據和大算力,走出霸王步也在預料之中。
在毫末智行看來,自動駕駛2.0時代和3.0時代最大的不同,前者是小規模數據和小模型的軟件驅動,後者則是大規模數據和大參數模型驅動。
這意味著,誰能優化訓練效率,誰能壓低雲端數據訓練成本,誰能提升計算效能,誰就能脫穎而出。
這正是毫末的發力方向。
戰略層面,毫末智行曾在2021年制定了數據智能的『思想鋼印』,即打通數據、算法和雲端的閉環,共同賦能給車端,用更低的成本和更快的迭代速度《AI訓練,系統測試,數據處理和收集等》開發出更好的車端產品。
武器庫層面,則是推出了數據智能體系產品MANA,這是毫末智行自動駕駛產品進化的核心驅動力。
MANA體系由四個子系統組成:
位於上層的是TARS《數據原型系統》、LUCAS《數據泛化系統》和VENUS《數據可視化平臺》,分別對應核心算法原型實踐、算法應用場景實踐和數據可視化系統,最底層的BASE《底層系統》則代表了數據通用能力,主要肩負著中間件、數據存儲和數據計算相關的服務。
整個系統將數據感知、認知、標註、仿真、計算等多個環節融為一體,在數據高效利用的同時節省大量成本,從而提高產品迭代速度。
今年年初,毫末智行宣佈成立了智算中心MANA OASIS,並宣稱這是中國自動駕駛行業目前規模最大的智算中心。
在國外,特斯拉率先為FSD準備了屬於自己的AI計算中心DOJO,項目剛啟動,就使用了1.4萬個英偉達的GPU來訓練AI模型。
反觀國內,毫末智行確實是第一批部署智算中心的自動駕駛科技公司,不僅為算法模型的成熟提供了超強算力,也為自家的城市NOH提供了算力層面的保障。
|大考之年|
持續領先——
這是毫末的目標,也是動力。
毫末董事長張凱在HAOMO AI DAY上表示,團隊未來的目標是讓重感知的城市NOH產品至少領先行業一年以上,並到2024年在全國100個城市實現落地。
目前,他們已經獲得3家主機廠定點合同。
』2023年是智駕產品的全線爆發期』
對此,張凱提到了三點:
–城市導航輔助駕駛產品將圍繞量產上車發力,主要玩家的城市導航輔助駕駛產品進入到真實用戶覆蓋和多城市落地的比拼。
–行泊一體將成為自動駕駛公司深耕的重點,在乘用車領域,搭載行泊一體功能的智駕產品將迎來前裝量產潮。
–末端物流自動配送車在商超、快遞等場景迎來爆發,2023年將在這些場景實現可持續商業化閉環。
值得一提的是,全線爆發的特征之一,是大模型開啟在車端的落地應用,毫末智行看到了趨勢,順勢推出DriveGPT,迎接智能駕駛行業的沖刺之年、大考之年。
競爭隻會越來越激烈。
下圖是過去五年世界范圍內具備影響力的大模型,橫軸是發佈或面世時間,縱軸是模型參數,紅色部分是中國自己推出的大模型,黑色的則是國外玩家的成果。
我們可以看到,參數規模幾乎是瘋狂增長,速度幾乎是每年增長十倍。
一個問題,是成本。
時間越是往後面走,大模型的成本將越來越高,其中就包括時間成本和經濟成本。
之前看到一組數據,ChatGPT在訪問階段的初始投入就是十億美元級別,訓練階段的單次訓練也要花掉約百萬至千萬美元。
對於毫末智行來說,項目推進越快,面臨的現金流壓力也會越大,就要看投資人以及背後的金主爸爸長城汽車未來如何『輸血』了。
在此次HAOMO AI DAY現場,毫末智行也聊到DriveGPT現階段的降本策略:
智駕硬件——
DriveGPT視覺方案直接重新配置感知硬件,毫末在BEV框架中開始驗證使用魚眼相機代替超聲波雷達進行測距,以滿足泊車要求。
經DriveGPT加持,毫末魚眼相機方案可達到15m范圍內感知精度30cm,2米內精度10cm,大幅降低智駕成本。
視覺標註——
毫末在使用數據過程中,逐步建立起一套基於4D Clips駕駛場景識別方案,如果使用DriveGPT雪湖·海若的場景識別服務,一張圖片的價格將下降到0.5元,單幀圖片整體標註成本,僅相當於行業的1/10。
另一個問題,是計算能力。
大模型對計算能力的要求極高,毫末智行在HAOMO AI DAY上提出了底層算力的幾個解決方案——
首先,是與火山引擎簽署合作,搭建大模型訓練保障框架,實現了異常任務分鐘級的補貨和恢復能力,可以保障千卡任務連續訓練數月沒有任何非正常中斷,提升大模型訓練的穩定性。
其次,是充分利用量產車數據回傳優勢,並將其推廣到大模型訓練,訓練資源彈性調度,集群計算資源利用率達到95%。
最後,是底層算子優化,MANA OASIS 通過提升數據吞吐量來降本增效,滿足Transformer大模型訓練效率,再通過引入火山引擎提供的 Lego算子庫實現算子融合,端到端吞吐提升84%。
不過,萬裡長征才邁出第一步。
毫末智行董事長張凱這次的演講題目,是《HAOMO SPEED,AI SPEED》,第一層意思,是追趕AI時代的進化速度,另一層意思,則是保持毫末智行自己的領先,前半程領先易,後半程領先難,特別是往L4級別走。
今年,毫末智行要打贏智能駕駛裝機量、MANA大模型進化、城市 NOH大規模落地和末端物流自動配送商業四場戰役。
這四場戰役具體怎麼打,毫末並沒有對外透露太多,不過,按照這家公司三個月一場AI發佈會的節奏,很多信息,想必很快就能揭曉。