整理 | 洪澤鑫 德新
編輯丨張祥威
按:汽車行業這年經歷了眾多跌宕起伏,既遭遇了新冠疫情、芯片短缺、L4自動駕駛寒潮等沖擊,也收獲了城市領航輔助駕駛落地、國產大算力芯片/激光雷達上車等亮眼戰績。
站在年終歲末的節點,HiEV編輯們將和業內人士一同總結當下、探索未來,為大家梳理行業發展的關鍵脈絡。
在2022年終盤點這個系列中,我們將共同記錄下這年關於公司、技術和人的那些閃閃發光的時刻。
本文是HiEV策劃《2022年終盤點》系列的第一篇。
2022年,科技日/Tech Day/AI Day成為汽車行業一種新的潮流,其中既有特斯拉、小鵬這樣的車企,也有毫末智行、百度、華為、輕舟智航、福瑞泰克等從L4/L2技術出發推動前裝量產的科技公司。
硬核科技日,意味著面對自動駕駛這樣的尖端話題,頭部公司希望通過開放一部分的思考,來加速整個行業的進步;另一方面,公眾對整車產品背後的技術,也逐漸顯露出濃厚的興趣。
車企和科技公司們,從不同的背景和業務定位出發,技術路線也各有差異,我們可以從中管窺自動駕駛領域不少前沿的突破和技術趨勢。
目錄
1.Robotaxi公司篇
Waymo
-
作為全球自動駕駛的鼻祖和領導者,Waymo在公佈技術進展、研究成果時,有很強的推動行業的意味。
比如,它的成果發佈常常帶著數據集的公開或者更新,以期影響更多開發者。
-
Waymo官網的技術博客理解門檻較低,很好地體現了Waymo ONE直面用戶To C的定位,主要目的是讓乘客更信任自動駕駛。
但同時,Waymo又附上了具體論文信息,對技術人員了解新的技術趨勢很友好。
感知
下面幾篇小論文可以看到Waymo在感知領域的一些新進展:
-
SWFormer:點雲3D目標檢測的稀疏窗口Transformer
-
LidarAugment:搜索可擴展的3D LiDAR數據增強
-
PseudoAugment:學習使用未標記的數據在點雲中進行數據增強
Surprise-based framework
關鍵概念
-
基於『驚訝度』對真實道路環境下的司機反應時間進行測量和建模。
亮點/指標
-
在決策規劃上,Waymo一直在找判斷智駕好壞的基準線。
-
在反應時間上,智駕系統延遲多少算是達標?目前並沒有很好的答案,這篇論文就是為了解答這個問題。
-
Waymo發現,在交通事故發生時,人類司機的反應時間可以作為一個很好的參考,所以把『驚訝度』作為衡量標準,對真實道路環境下的司機反應時間進行測量和建模。
-
借助這個框架和模型,Waymo給自己的智駕系統的碰撞避免行為創建了一個內部基準,用於驗證智駕系統的智能化程度。
劣勢/不足
-
這是Waymo對於如何利用人類行為數據作為智駕表現好壞評價基準的嘗試之一,並沒有引起太多關注。
NIEON
關鍵概念
-
這個模型是基於人類司機事故數據訓練出來的,意思是一個『理想型』人類司機,並把這個『司機』作為評價Waymo智駕系統的基準線。
亮點/指標
-
今年論文公開的NIEON模型,相比人類司機,能防止62.5%的碰撞,並降低84%的嚴重傷害風險。
-
當Waymo智駕被置於撞人角色時,完全避免或減輕了100%的碰撞。
-
當Waymo智駕被置於被撞角色時,完全避免了82%的事故。
-
在另外10%的場景中,當Waymo智駕是被撞角色時——當另一輛車轉向其路徑時,都在十字路口——它采取了減輕碰撞嚴重性的行動。
-
隻有8%的被撞狀態模擬沒有變化,幾乎都是被追尾的情況。
-
Waymo的智駕系統比NIEON模型更安全,能避免75%的碰撞,並降低93%的嚴重傷害風險。
這說明,自動駕駛比人類駕駛更安全的客觀依據,同時再次科普了自動駕駛並非0事故,隻是更安全,為政策制定提供依據。
Block-NeRF
關鍵概念
-
基於相機圖像的大規模場景重建的新方法。
亮點/指標
-
將場景分解為單獨訓練的NeRF,使渲染能夠擴展到任意大的環境,並允許對環境進行每個塊更新。
-
使用這項技術從280萬張圖像中重建了舊金山的整個社區——這是迄今為止最大的基於NeRF的3D重建。
-
細節展示了基於舊金山阿拉莫光場和使命灣合成的3D場景,阿拉莫廣場面積960米 x 570米,數據分別捕捉於6月、7月和8月,共由35個Block-NeRF組成,經過了38到48次數據收集訓練,訓練每個Block-NeRF分別使用了6.5萬到10.8萬張圖像數據,累計采集時間為13.4小時《1330次數據采集》。
-
發佈了Waymo Block-NeRF數據集,由12個攝像頭記錄的100秒駕駛組成,包含1.08公裡車程,總共約12,000張圖像。
劣勢/不足
-
沒有公佈給舊金山『建模』用了多長時間,但從描述來看,花費的總時長應該不短。
Waymo Open Dataset
關鍵概念
-
是2019年推出,最大、最多樣化的自動駕駛數據集之一。
亮點/指標
-
Perception dataset,有2030個場景,目前最新版為2022年6月升級的v1.4,分訓練和評估兩部分,主要在鳳凰城、山景城和舊金山采集,大部分為白天和晴天。
-
Motion dataset,有目標軌跡追蹤和3D同步地圖,有103354個場景,目前最新版為2021年8月升級的v1.1版。
-
發佈以來,支撐了500多篇業界論文成果。
-
2022年3月增加了關鍵點和姿勢估計、3D分割標簽、2D到3D邊界框對應標簽。
-
2022年Waymo開放數據集挑戰賽,連辦多屆,多家公司響應。
百度
文心大模型自動駕駛感知
關鍵概念
-
前代的感知更多是後融合,把激光雷達、攝像頭、毫米波雷達三種傳感器的感知結果融合在一起。
-
新一代感知2.0基於前融合方案,多模態前融合端到端;利用了文心大模型圖像弱監督預訓練的模型來挖掘長尾數據。
亮點/指標
-
這是一套覆蓋近距離、中等距離和遠距離的感知方案。
-
通過半監督的方法,利用2D的標註和沒有3D標註的數據,在既有2D又有3D的訓練數據上面,去訓練一個感知大模型,然後給3D數據打上3D偽標註。
-
在編碼器、2D檢測Head、3D檢測Head三個地方使用了蒸餾。
-
把大模型的Detection head,包括2D、3D裡面的參數,直接作為小模型的初始化,提升訓練的效率和效果。
-
用了幾個例子表示新模型的準確度,左邊綠色的框是對應真值,紅色的是預測的結果。
Apollo自動駕駛地圖
關鍵概念
-
主要應用於L4自動駕駛。
亮點/指標
-
自動化數據融合:按照數據空間分佈劃分,構建多層級的圖結構,確保全圖的精度一致,在統一的坐標系下進行融合。
-
地圖自動化標註:多層級的點雲識別,結果優於一次識別的結果,基於車道級的拓撲模板進行了矢量要素的匹配,提高了拓撲的生成以及車道線串接的準確性。
-
在線地圖:使用車輛的攝像頭和激光雷達,基於Transformer生成BEV的Feature Map,生成車端的實時地圖,最終將車端的實時地圖和高精地圖以及眾源地圖進行有效的融合,生成在線地圖。
-
駕駛知識圖譜:基於百度地圖超過1200萬公裡的路網覆蓋、日均20億公裡的軌跡裡程,包含了多維度,且豐富的駕駛知識,例如經驗速度、變道的時機、變道的軌跡等等,這跟輕舟提到的人類駕駛行為數據使用類似。
-
Apollo自動駕駛地圖總共分三層:靜態層、動態層、知識層、駕駛層,
數據提純+數據消化
關鍵概念
-
百度理解整個數據閉環是由數據提純以及數據消化這兩個部分構成。
亮點/指標
-
數據挖掘與標註都是提高數據純度的手段。
-
基於圖文弱監督預訓練的模型幫助做長尾數據的挖掘,大模型可以用來通過推理引擎獲取對應數據的特征和標簽,可以用作定向挖掘。
-
車上的小模型可以進行數據的初步篩選,通過推理的方式獲取小模型的標簽,實現重要的數據回傳,多個小模型還可以獲得模型對數據的不確定性,從而實現不確定性挖掘。
-
數據消化:自動化、聯合優化以及數據分佈。
-
自動化:
使用異步的推理引擎對模型進行評測,最終的訓練的輸出是一個候選模型的集合,而不是單一的模型,以下圖小狗為例,當出現誤檢之後,可以利用特征檢索的一些方式,挖掘出小狗的數據,然後將新數據與舊數據同時傳入到訓練引擎進行自動化訓練,最終實現指標的提升。
-
聯合優化:
假如預測指標與仿真指標的目標不一致,預測模型的指標提升不一定對仿真指標提升有幫助,但在訓練的同時,將產生的預測模型實時地與下遊規劃模塊進行打包,同步地進行仿真評測。
最終的訓練引擎同時優化的是離線的預測指標以及仿真的端到端指標。
-
數據分佈:
首先對數據分佈的先驗進行統一的管理,這裡的先驗可以是人為設定的,也可以是通過學習來獲得。
當這個先驗進入到訓練引擎之後,訓練引擎其實可以把這個先驗或者這個數據分佈當作超參數,做一定程度的探索或搜索。
當發現更好的分佈之後,可以通過一個反饋的機制修正數據分佈的先驗。
昆侖芯
關鍵概念
亮點/指標:
-
第一代14納米的人工智能芯片,HBM內存,2.5D封裝,已經在百度數據中心裡面部署了超過2萬片。
-
第二代AI芯片,7納米的工藝,XPU第二代架構,第一顆采用GDDR6內存技術的AI芯片。
Cruise
-
Cruise背靠車企,其L4無人車Origin集合了改裝車成本低、前裝車可定制的優點。
-
其分享會的最後用一個具體的女性用戶案例,來描述無人出租能帶來的便利和安全,並且展示遠程監控工具,還能確認有沒有遺落物品。
感知
-
用了很多demo示例來呈現不同模塊的表現效果,但具體技術實現講得少。
-
在面對遮擋區域時,也有類似特斯拉ghost object的應用。
預測神經網絡架構
關鍵概念
-
基於眾多數據,用自監督的方法構建了一個端到端的預測神經網絡架構,由Encoder和Decoder兩部分組成。
-
Encoder以每個物體的歷史狀態和所處場景為輸入,通過一個Graph Attention Network學習整個場景的潛在含義,包括不同物體間的交互。
-
Decoder則是由Two-Stage和輔助任務兩個子集構成,見下圖,特別強調運用了自監督學習實現自動標註。
亮點/指標
-
能同時預測超過20人的行走狀態。
-
在舊金山需要處理的交互場景的復雜度比鳳凰城高32倍。
Cruise Decision Engine
關鍵概念
-
公開了決策模型的架構圖,並簡要介紹了含義。
亮點/指標
-
針對達到的效果《outcomes》,尤其是不確定性《運動狀態、存在與否、3D空間的不確定性》,放了許多demo視頻作為例子,但沒有太詳細解釋具體技術方法。
-
其中existence uncertainty有被遮擋區域的ghost object例子,以及鬼探頭的例子。
-
3D uncertainty是找了一個十字路口,其中一個路口是坡道的例子。
-
360 interaction是一個用逆向車道繞過路障的例子。
-
在計算速度上,通過其深度學習網絡加速,大部分的時候決策隻需要14ms,最壞的情況延遲是80ms。
-
用一個曲線圖表示如何在控制層面達到的平順效果,但沒有細講做法。
Cruise仿真
關鍵概念
-
包括morpheus、Road to Sim、NPC AI三個基礎模塊。
-
morpheus:通過簡單代碼便能模擬行駛軌跡,結合地圖數據生成眾多軌跡。
-
Road to Sim:從收集到的真實場景圖像數據中學習,生成仿真場景。
-
NPC AI:smart agent,用到了預測模型來讓NPC做出反應
亮點/指標
-
展示了阿拉莫廣場的自動仿真重建結果《沒說耗時多久》,強調沒有人工的參與。
-
可仿真光照和天氣,還可以模擬多普勒效應。
-
仿真可以幫助收集特殊數據,比如被遮擋的警車、救護車等,效率比實際道路收集高180倍。
Webviz
關鍵概念
-
最初隻是可視化工具,現在已經是一個開源的、供大規模開發團隊一同協作的開發平臺。
亮點/指標
-
在舊金山的日常道路測試裡,有用的數據占比不到1%,所以數據的管理篩選很重要。
-
展示了內部的Event管理頁面,可以很簡單地查找case,或者智能化地提取跟某個event相關的其他類似event。
-
超過95%的Cruise員工在使用。
-
展示了工程師如何修改代碼、自動構建和執行系列測試、分析結果並比較的過程,下面是某個場景在仿真測試中的比較結果。
-
簡單提到了車道線生成,應用在了地圖的自動更新中。
-
仿真的運行效率數據:每天收集PB量級真實數據,合成PB量級的仿真數據,每天仿真的數據相當於17年的駕駛經驗積累,計算資源的每個月的使用價值達到770年《這個我也沒有太理解》,每個月執行2千萬次場景測試,累積收集已有4 EB的數據。
Origin
關鍵概念
-
基於通用對『造車』的洞察,可以保障硬件冗餘,同時控制成本。
亮點/指標
-
目前正在正向研發的激光雷達可以更好地保障FOV的冗餘。
-
考慮到了空氣動力學,減少風阻和風噪。
-
考慮到了傳感器的清潔,但沒有細講怎麼做的。
-
計算平臺,在四代芯片的迭代過程中,成本下降了十倍。
-
主要是兩類平臺,一類用於傳感器的邊緣計算平臺,一個作為主計算平臺。
-
芯片INT8算力1500 TOPS,帶寬400GB/Sec,運行內存RAM 1G,DDR達800GB/Sec。
-
計劃推出的新一代傳感器,已經看不到機械式激光雷達的身影,可見Cruise在2021年11月就已經在準備應用半固態/固態激光雷達了,領先於國內。
-
預計2023年Origin投入使用,車隊規模達數百輛,2024年車隊規模超過一千輛。
2.車企篇
特斯拉
-
特斯拉的AI DAY更多分享的是方法論上的創新,以及在最終結果上跟自身過往方法相比的優勢。
-
對比國內公司,特斯拉敢於把較多的技術細節分享出來,從而會引發更多工程師的關注和分析,相反國內的技術分享總是讓人雲裡霧裡的。
-
大部分工程師會細細研究Demo視頻,了解細節及原理。
沒有官方中文解讀,所以國內工程師都是連蒙帶猜,在語言理解上有點各持一言。
-
過去一年訓練了75000個神經網絡,每8分鐘就要出一個新的模型,共有281個模型用到了特斯拉的車上。
Occupancy Network
關鍵概念
-
Occupancy表示空間中每個3D體素是否被占據,可以更好地處理長尾問題——類別不明的障礙物。
亮點/指標
-
以多個場景demo展示了對物體形狀以及運動狀態的感知。
不同顏色含義:
藍色表示運動物體,紅色表示車輛,綠色表示路沿…
-
3D分割輸出時長隻需要10ms。
-
從Demo中估算的感知范圍:前向40m,後向20m,左右15m,單個體素約為40cm的立方體。
-
公開了模型結構:
-
直接輸出道路信息《Surface Outputs》,包括海拔和語義信息。
-
基於queryable MLP decoder,避免了分辨率對模型的限制。
劣勢/不足
-
Occupacy network的真值監督用到了特斯拉4D標註中的線下三維重建場景,但重建場景也存在不準確性。
-
Tesla bot也用了相同的技術棧,但從demo來看,Occupancy Network在室內的體素體積更小,準確度一般。
-
首次亮相是2021年FSD Beta的Release Note中,後來在CVPR 2022 WAD WORKSHOP介紹了更多細節。
NeRF
關鍵概念
-
Neural Radiance Fields,用深度學習完成3D渲染,完成三維場景的重建。
亮點/指標
-
以demo呈現利用車隊數據離線構建的三維場景效果。
-
每次重建可能會遇到圖像模糊、雨、霧等,但多輛車的數據可以相互補充,在全世界范圍內不同天氣和光照條件下都能用上。
-
NeRF和Occupancy的相互結合:Occupancy network產生 3D volume後,將其於3D-reconstruction volume《Nerf離線訓練得到》進行比較,起到監督作用。
劣勢/不足
-
相比追求渲染顏色效果,更應該追求準確的位置信息,但官方表示這部分還在努力。
-
NeRF在Occupancy中的應用類似於『高精地圖』,未來如果特斯拉的車隊能做到對街景的細節重建,中國測繪政策就形同虛設了。
Interaction Search
關鍵概念
-
基於神經網絡的軌跡規劃,基於特斯拉車隊的人類駕駛行為軌跡以及離線優化算法得出軌跡。
亮點/指標
-
講解時,先基於無保護左轉講了傳統方法的軌跡生成和優化的劣勢,再拋出Interaction Search。
-
基於神經網絡可形成數據驅動,減少對工程師的依賴。
-
基於神經網絡的軌跡生成比傳統方法時延下降了許多,從1-5ms per action到100us per action
-
在計算上,從CPU遷移到了GPU。
-
分享了一個Occlusion的案例:在攝像頭被遮擋的區域裡,會假設有一個ghost object從遠處開過來,這樣做類似於人類的習慣。
劣勢/不足
-
特斯拉的Joint Planning指的是自車和他車的聯合規劃,主要分享的是軌跡的優化方法,沒有談到速度和方向的聯合優化方法《國內吉大郭洪艷教授提出過橫縱向一體化決策,輕舟提出過時空聯合優化》。
Lanes Network
關鍵概念
Lanes Network
-
在線矢量地圖構建模型,參考了自然語言模型中的Transformer decoder,以序列的方式自回歸地輸出結果。
-
分割得到的像素級別的車道不足夠用於軌跡規劃,而通過Lanes Network可以得到車道線的拓撲結構。
亮點/指標
-
展示了傳統車道線識別的方法隻能應用於高速,在城市這種有更多路口的環境下,難以應用。
-
由於Map信息的稀疏性,向量化表示比柵格化表示更佳。
-
詳細介紹了如何加速Lane Network這類模型。
Autolabeling
關鍵概念
-
去年AI DAY詳解了Autolabeling,今年主要講解Lanes Network的自動標註。
-
通過車隊收集上來的多軌跡,重建道路環境,在新的軌跡上便可以重建的道路環境作為真值,自動標註出車道線,自動標註一段新軌跡的時間約為30分鐘,支持並發。
亮點/指標
-
在車道線標註上的各類指標提升情況,原本一萬個trips需要5百萬個小時的人工標註,現在隻需要機器運轉12個小時便能完成。
-
展示了在黑暗、霧氣、遮擋、雨天情況下的自動標註效果。
劣勢/不足
-
測繪法再次敲起警鐘。
Simulation world creator
關鍵概念
-
依賴自動標註的真實世界道路信息和豐富的圖形素材庫,生成大量場景。
亮點/指標
-
要想創建一個路口的仿真場景,需要藝術家花2周時間,但特斯拉隻需要5分鐘。
-
創建舊金山的仿真城市隻需要2周時間。
劣勢/不足
-
特斯拉直到2021年才全面對外展示了自研的渲染引擎、場景庫、目標庫和對抗學習場景,對舊金山的虛擬城市重建工作Waymo和Cruise早就做過了。
Data Engine
關鍵概念
-
以一個路口右前方的停止車輛案例講解數據閉環,並且展示了手動標註系統的友好度。
FSD芯片+DOJO
基礎設施/計算平臺
亮點/指標
-
車載計算平臺上,多模型在兩個SoC上跑時,通過優化,可以最大限度地利用100TOPS算力
-
超算中心擁有14,000個GPU,共30PB的數據緩存,每天都有500,000個新的視頻流入這些超級計算機
-
專門開發了加速的視頻解碼庫,以及加速讀寫中間特征的文件格式.smol file format。
-
使用24個GPU集群的服務器在計算一個Batch Normalization時候延遲是150us,在25個D1組成的DOJO訓練服務器上,同樣的Batch Normalization隻需要5us就可以完成,效率提高了30倍。
-
在加速器使用效率《也就是公式中Accelerator Occupancy部分》上的優化,Tesla給出訓練中占用負載最高的AutoLabeler和Occupancy Network部分優化前後的性能分析對比,優化前DOJO加速器占用率隻有4%,大量時間消耗在數據讀取裝載上,而優化後,極速器利用率達到了97%,保證了DOJO高效的使用。
-
4個DOJO集群箱子就可以帶來等效目前72個GPU集群的性能。
-
預計2023年Q1將會開始交付用以進行AutoLabeler訓練的DOJO服務器。
小鵬
-
內容更偏C端車主端,主要被包裝為功能、場景的宣傳語言。
-
缺少技術細節,不像Waymo附有具體論文,鮮有工程師討論。
-
自9月17日在廣州試點開放以來,截止10月17日,城市NGP周用戶滲透率達到84%,裡程滲透率達到63%,同時通行效率可接近人類司機的90%,平均每百公裡被動接管僅0.6次。
-
發佈XNGP智能輔助駕駛系統,包括無圖區域能力大幅升級、XNet 深度視覺神經網絡、擬人化的決策系統、人機共駕體系。
-
相比高速NGP,城市NGP的代碼量提升至6倍,感知模型數量提升至4倍,預測/規劃/控制相關代碼量提升至88倍《潛臺詞是研發幹了很多活》。
XNet
關鍵概念
-
將多個攝像頭采集的數據,進行多幀時序前融合,輸出BEV視角下的動態目標物的4D信息《如車輛,二輪車等的大小、距離、位置及速度、行為預測等》,以及靜態目標物的3D信息《如車道線和馬路邊緣的位置》
亮點/指標
-
Transformer 部署,原本需122%的Orin-X 算力,優化後僅需 9%。
小鵬數據閉環
關鍵概念
-
由采集、標註、訓練、部署四大核心能力組成。
亮點/指標
-
引入了黃金骨幹網絡架構《Golden backbone》,首次應用自監督技術。
-
解藕了骨幹模型和發佈模型的訓練,讓多任務的網絡訓練效率更高。
-
通過定向采集和仿真結合,一年內累計解決1000個以上Corner case《極限場景》,高速NGP事故率降低95%。
-
5 千萬公裡的仿真裡程,5000+ 個核心模擬場景,挑戰 17000+ 個專項模擬場景。
全自動標註系統
關鍵概念
亮點/指標
-
標註效率是人工標註的近45000倍,以50萬段訓練數據Clip,10億個物體為例,現在僅需16.7天可以完成,而全人工標註需2000人年。
-
峰值日產 30000 clips,相當於 15個NuScene數據集。
扶搖
關鍵概念
-
自動駕駛智算中心
亮點/指標
-
在烏蘭察佈建成中國最大的自動駕駛智算中心『扶搖』,算力可達600PFLOPS《每秒浮點運算60億億次》,模型訓練效率提升602倍。
-
與2400TFLOPS算力的服務器進行單機訓練相比,80機並行訓練可將訓練時長由276天縮短至11小時。
劣勢/不足
-
隻拋出數據結果,沒有具體怎麼做的分享。
全場景語音2.0
關鍵概念
亮點/指標
-
喚醒到界面反饋245ms、到語音反饋小於700ms。
-
並行指令:支持2-4個指令連在一起說,一般競品隻能支持任意2個命令組合。
-
端雲一體:端4路+雲4路結果仲裁。
-
回聲消除:支持30dB。
-
錯誤率大幅下降:識別準確率達到97%,標準安靜場景降低7.7%、中英文混合場景降低7.16%、噪聲環境場景降低36.79%、帶地域口音場景降低33.84%。
-
綜合喚醒率98%、高噪喚醒率97%。
到UI響應低至245ms《提升3倍》,到語音回應小於700ms《提升60%》;誤喚醒率:低於2次/24h。
-
語音的CPU使用率降低65.9%,內存使用降低42.3%。
-
通過實車模擬生成車型適配數據,單車型數據采集成本大幅降低,僅為錄制音頻數據方式成本的5%。
3.科技公司篇
華為
八爪魚
關鍵概念
-
工具鏈分為數據、訓練、仿真、監管四部分。
-
可解耦、可定制化。
亮點/指標
-
華為的預標註算法精度已經達到領先水平,在nuScenes、COCO、KITTI等多個自動駕駛國際公開數據集測試挑戰中獲得第一。
-
可提供50多類、120多萬張、超過2000多萬對象的標註數據集,而且這個數據集是持續迭代、持續擴充的。
-
對場景進行智能化打標簽:開發人員可以上傳需要車輛獲取的圖片,通過雲端下發指令,車端會采取類似‘以圖搜圖’的方式,遇到類似的場景就會自動截取下來,形成特定場景的難例數據集,減少90%的上雲數據,並節省70%的數據集構建時間。
-
一鍵將真實路測場景轉化為仿真場景,可實現95%以上的場景還原能力,能有效幫助開發者快速模擬周邊車輛,實現分鐘級的場景構建。
-
從安全性、舒適性、可靠性、人機交互體驗、可用性、合規性、能耗性和通行效率等維度,共開放了200項評價指標。
-
虛擬仿真測試:將規控算法評測周期從原來的天級縮短到了小時級,整個算法的迭代周期也從周級縮短到了天級。
-
提供超過20萬個仿真場景實例;系統每日虛擬測試裡程可超過1000萬公裡,支持3000個實例並發測試。
-
提供給客戶一套參考算法,客戶可以在此基礎上調試優化。
-
和VTD戰略合作,並嵌入了CarMaker的車輛動力學模型。
-
,別人也不會和你共享。
高精地圖
-
智駕方案可模式。
-
ICA 模式:車在第一次開的地方實現自動駕駛
-
ICA+ 模式:沒有高精度地圖,但是車會根據自車或者是他車開過的環境自動學習地圖
-
NCA 模式:車內有預置的高精地圖
-
整個地圖系統叫 Roadcode,Roadcode 裡面有兩部分組成,一個叫 Roadcode HD,一個叫 Roadcode RT。
-
Roadcode HD可以理解為傳統的高精度地圖,有專門的地圖制作團隊做的,是離線的;
-
Roadcode RT 是車子的自學習地圖,用於NCA和ICA+ 。
-
這兩個東西是兩位一體的,Roadcode RT 本身會不斷地自學習後去更新 HD,把數據沉淀下來。
AVP 也是同樣的實現原理。
《類似於特斯拉3D場景重建的做法》
輕舟智航
OmniNet
關鍵概念
-
時序多模態特征融合,應用於前中融合階段、實現數據/特征融合的全任務大模型。
亮點/指標
-
將視覺、毫米波雷達、激光雷達等數據通過前融合和BEV空間特征融合,讓本來獨立的各個計算任務通過共享主幹網絡《backbone》和記憶網絡《memory network》進行高效多任務統一計算,最終同時在圖像空間和BEV空間中輸出不同感知任務的結果。
-
情調通用障礙物識別:在前向lidar視野內,OmniNet可輸出每一個占據柵格的語義、實例、運動狀態等信息,不僅能有效識別車輛、人群、植被、護欄、錐桶、小動物、施工區域等常見的道路交通參與元素,各類陌生或長尾罕見的異形障礙物,即使不屬於交通參與者也可以識別並快速做出反應。
-
讓本來獨立的各個計算任務通過共享主幹網絡《backbone》和記憶網絡《memory network》進行高效多任務統一計算,在完成相同數量任務的基礎上,OmniNet可以節省2/3的算力。
-
前向120度的激光雷達看不到後方,但通過時序和空間融合算法,在車行駛過程中,前向激光雷達掃過的區域會在系統時刻進行記憶,並在車往前行進後將記憶區域的點雲數據,與側向後向的純視覺信息進行補充和融合,從而保證對前後向區域的充分認知。
時空聯合規劃
關鍵概念
-
業界更多采用的是「時空分離規劃」——把「對軌跡的規劃」拆分成兩個子問題,即路徑規劃《path planning》和速度規劃《speed planning》,路徑規劃對應於橫向控制,即方向盤;速度規劃對應於縱向控制,即剎車或油門,這種決策機制也就是通常所謂的「橫縱分離」。
-
「時空分離規劃」相當於先為車輛「鋪好」一段鐵軌,再在鐵軌上計算速度。
這種方式非常依賴手寫規則調整車輛行為,也非常依賴大量路測來驗證算法。
-
輕舟智航自研「時空聯合規劃算法」,同時考慮空間和時間來規劃軌跡,能直接在x-y-t《即平面和時間》三個維度的空間中直接求解最優軌跡。
亮點/指標
-
用了一個案例來說明兩種規劃算法的區別。
-
規劃控制技術架構設計靈活,可以適用高低性能的計算平臺,當算力足夠的時候,會計算出較多軌跡,選取最優軌跡,充分利用多核做並行計算;算力有限的情況下,生成的軌跡會相應減少,但也可以保證行車的安全性與穩定性。
-
將傳統機器人技術和機器學習技術結合,通過深度學習來優化決策和規劃,在大規模智能仿真系統中,模型算法每天可以抽取數百萬幀有效數據,完成訓練、測試驗證和迭代優化,說明兩個場景——『判斷跟車距離』和『選擇變道時機』都是可以基於人類駕駛行為數據訓練得出的。
-
特斯拉講的聯合優化是指自車和障礙物之間的優化,跟輕舟的時空聯合優化不是一回事,自車和障礙物的博弈並非輕舟強調的點。
Prophnet
關鍵概念
-
輕舟的預測模塊分為車端和訓練平臺端兩大重要部分:
① 車端的預測模塊
-
主要目的是預測障礙物未來可能的行進軌跡,該模塊又分成預測Context、預測Scheduler、後處理這三個主要的子模塊。
· 預測Context《預測的上下文》,主要用於記錄各種各樣的信息,比如自動駕駛車的歷史的駕駛信息,障礙物的歷史信息、包括歷史的位置姿態,它的轉向燈的歷史序列,還有當前障礙物的信息。
還有地圖和紅綠燈,因為障礙物的很多運動是跟地圖以及紅綠燈的狀態強相關的,所以預測也需要考慮地圖和紅綠燈。
· 預測Scheduler,使用預測Context提供的信息來預測障礙物未來的行為和軌跡。
首先對障礙物進行優先級分析:把障礙物分成高優的——即距離自車較近的、有潛在交互風險的障礙物,和低優先級的—-跟自車交互可能比較低的障礙物,比如遠處的。
這麼做的主要目的是把有限的車載的算力去集中到比較重要的障礙物上。
其次是場景分析,主要分析障礙物當前所處的場景:比如正處於路口,還是正常道路;是在高速,還是在匝道上等等。
經過分析之後,會有相應的預測分發邏輯。
根據不同的優先級、不同的場景,分發到不同的預測器去做大量的預測《預測器可以理解為預測算法的「容器」,不同的預測器包含不同的預測算法》。
· 後處理,解決預測軌跡之間的沖突:比如兩個預測如果互相矛盾,那麼會由沖突解決模塊去仲裁。
裁剪低概率預測軌跡:如果有預測的軌跡概率較低,則可以裁剪掉不給下遊。
交互後處理:主要處理障礙物,預測未來的軌跡,預測和自車的潛在的交互。
② 訓練平臺端
擁有預測樣本生成模塊——從海量的路測數據裡提取感興趣的預測樣本,再將這些樣本存到樣本庫中,在樣本庫中,預測模型的訓練模塊會從中選取所需的樣本,進行深度學習模型的訓練和優化。
亮點/指標
-
提供10秒的意圖加軌跡預測,主模型預測有至少三條帶概率的軌跡,同時最大概率軌跡和真值的平均誤差是 3.73 米,即10 秒整體軌跡的平均誤差3.73 米《沒有提及在什麼場景下》。
-
主模型可同時支持預測 256 個目標,推理整體耗時小於 20 毫秒,可以滿足實時運算的需求。
-
除主模型外還包括副模型,包括Cutin模型,其平均可以提前一秒預測到和自車平行的障礙物的切入行為。
準確率達95%,誤報率小於10%,路口出口的選擇模型的準確率也能高達90%以上。
-
Prophnet模型在Argoverse 2021年和2022年的比賽裡分別拿到是冠軍和季軍,號稱可在車端以10Hz的頻率運行。
輕舟矩陣
關鍵概念
-
輕舟自動駕駛研發的工具鏈。
亮點/指標
-
建立了駕駛數據倉庫,可自動化地對實際駕駛數據和影子模式下的人工駕駛數據打上標簽。
這些標簽的內容非常豐富,數量多達成百上千個,包括道路信息《道路級別、種類、車道類別等》、坐標環境信息《周圍障礙物、車流密度、行人、其他車輛是否cut in等》、自車信息《自車的速度、位置》、從影子模式中獲得的人類司機的開車數據,由此就可以得知人類司機在哪個時間點剎車變道、什麼時候打了轉向燈。
-
可以更便捷地針對發現的問題建立場景庫:比如,如果自車無法很好地處理有大車cut in的情況,就可以將大車在自車前突然起步的類似情況全挖掘出來,做成場景庫進行仿真測試。
-
線上事件挖掘機制:當發現有行人檢測不穩定的情況時,便會將相關時段的信息保存上傳;在案例分析階段,找到大量相似場景,確認相關場景的共性和算法處理的不足,在此基礎上進一步挖掘出充分的數據用於標註訓練,最終解決好這一類場景的問題。
-
生成紅綠燈數據:通過對抗式生成網絡,在有大量紅綠燈數據積累的情況下,進一步增強其多樣性;生成的數據可以在許多維度上更加多樣化,在模型訓練中加以使用,可以大幅提升模型算法的泛化能力。
毫末智行
-
解決了大部分高速場景後,今年自動駕駛很大一部分研發重心開始轉向城市場景。
-
城市場景的復雜性較高速倍增:比如,城市道路經常不定時的養護;有的路段大型車輛密集,遮擋和截斷嚴重;周圍車輛的行為導致自車變道空間狹窄,變道困難;還經常遇到打開的車門等等。
毫末數據訓練
關鍵概念
-
將所有感知任務backbone進行統一,然後利用無標註數據對統一backbone進行預訓練,模型剩餘的部分再用標註樣本進行訓練。
-
做Backbone的預訓練這種方式比隻用標註樣本做訓練,效率可以提升3倍以上,同時精度也有顯著的提升。
-
在數據規模增加後,需要繼續保持巨量數據規模下對自然界數據分佈遵循長尾分佈形態。
-
簡單來說,就是在處理好頭部場景數據的基礎上,兼顧腰尾部場景數據。
-
業界常用的方式是用全量數據再次精細的訓練模型,但是這種做法的成本高而且效率低。
-
毫末的做法是,構造一個增量式的學習訓練平臺。
訓練過程中不再無差別地去優化所有參數,而是選擇『有偏見』的參數進行定點優化,並動態觀察模型的擬合能力,適時擴充模型參數規模。
亮點/指標
-
據稱,相比常規做法,這一方式達到同樣的精度可以節省 80% 以上的算力,收斂時間也可以提升 6 倍以上。
重感知+輕地圖
關鍵概念
-
采用了重感知的技術路線。
亮點/指標
-
使用 Transformer 建立強感知的時空理解能力,用時序的transformer 模型在 BEV 空間上進行虛擬實時建圖,通過這種方式讓感知車道線的輸出更加準確和穩定,在這個時空下對障礙物的判斷也會變得更加準確。
-
目前,在實時感知能力下,毫末已經可以不需要地圖輔助就能解決過去比較麻煩的復雜路口、環島等問題。
擬人的駕駛策略
關鍵概念
-
過去業界常用的分場景、微模型方法,會存在由於太機械導致的舒適感不足問題。
-
毫末正在借鑒多模態大模型的方法來解決認知問題,讓系統的動作更加擬人。
-
大致做法是,對覆蓋全國的海量人駕數據進行深度理解,構建毫末自動駕駛場景庫,並基於典型場景挖掘海量司機的實際駕駛行為,構建 taskpromt,訓練一個基於時空 Attention 的駕駛決策預訓練大模型,使得自動駕駛決策更像人類實際駕駛行為。
福瑞泰克
-
福瑞泰克的技術中臺——ODIN數智底座,其大致可以分為:傳感器、域控制器、算法、數據閉環。
傳感器
-
以前視感知為主的1V或者1V1R是當前量產的主力。
第一代前視攝像頭產品FVC1.0 2018年量產;第二代產品FVC2.0/FVC2.1已經量產,第三代產品FVC3即將量產。
-
FVC1.0、FVC2.0/FVC2.1 單V或者融合前雷達,支持L2輔助駕駛全功能的量產。
向下,FVC2可以支持10萬元級車型的量產,向上FVC3可以支持到25萬元級的車型。
-
自研的攝像頭模組,配合自研的標定算法,對圖像進行高度擬合還原,可以提升識別精度;模組在設計時,充分考慮了溫度對材料的影響,確保定焦時有較高的清晰度;在濾光片上,利用旋塗工藝,消除鬼影、優化光斑。
-
FCV3集成800萬像素攝像頭,FOV開角更大,可以在高時速下更好的識別到近距離的Cut-in,可以在較長距離車道線缺失的情況下優化LCC的體驗,通過大彎道時也會更穩;800萬像素前視對AEB功能也會有大幅提升。
-
涉足4D毫米波雷達的研發,除了成本更低,獲取更豐富的原始數據外,傳感器依據智駕的場景和軟件需求進行針對性定義和優化。
-
相比激光雷達,福瑞泰克在傳感器的路線選擇上,更傾向深挖視覺和毫米波雷達的能力。
域控制器
-
ADC20,AI算力 13 TOPS,接入5V6R,支持高速NOA功能;
-
ADC25,AI算力37 TOPS,可接入10V5R,可以實現部分城區輔助駕駛功能;
-
ADC28,264 TOPS,支持城區NOA的L2.9方案;
-
ADC30,448 TOPS,可接入11V5R3L,支持L3級自動駕駛方案。
福瑞泰克 ADC30
數據閉環
-
基於FVC以及ADC20的量產,福瑞泰克在數十個ADAS項目上積累實車測試數據,尤其從ADC20開始,系統支持影子模式,內部保守估計未來一年內將獲得千萬公裡級別的高價值數據回傳。
-
在NOA開啟時系統發現駕駛員接管,原因可能是超車時機不對、或者下匝道時機不對,接管的動作會觸發相關數據上傳到雲端,雲端訓練後算法的策略會迅速優化迭代。
-
搭建分層的數據湖,支撐海量數據的生命周期管理:
對有缺陷的數據,快速發現並且盡快反饋給前方調整采集策略;
對高價值的數據,通過輕度挖掘,基於分層標簽策略存儲,方便研發人員訪問洞察。
-
已建立了超過4000+高價值場景的場景庫,用於算法測試、驗證和質量管理;通過影子模式,與OEM廠商共建數據合作模式,發掘數據的商業價值方向。