汽車零部件行業專題報告:AI大模型在自動駕駛中的應用。

汽車零部件行業專題報告:AI大模型在自動駕駛中的應用。

圖源:攝圖網

作者|安信證券

徐慧雄,李澤

文章來源|未來智庫

供稿郵箱|[email protected]

AI大模型如何應用於自動駕駛算法中?

算法是決定自動駕駛車輛感知能力的核心要素。

當前主流的自動駕駛模型框架分為感知、規劃決策和執行三部分。

感知模塊是自動駕駛系統的眼睛,核心任務包括對采集圖像進行檢測、分割等,是後續決策層的基礎,決定了整個自動駕駛模型的上限,在自動駕駛系統中至關重要。

感知模塊硬件部分主要為傳感器,軟件為感知算法,其中算法是決定自動駕駛車輛感知能力的核心要素。

1.1.神經網絡加快自動駕駛感知算法發展,小模型向大模型迭代趨勢明確

神經網絡模型的應用驅動感知算法高速發展。

早在上世紀《參數丨圖片》70年代,學術院校和科研機構展開對自動駕駛技術的探索,早期的自動駕駛感知算法主要是基於傳統計算機視覺技術,直到2010年之後隨著深度學習技術的發展,神經網絡被引入到自動駕駛感知算法中,自動駕駛汽車的感知效果有了質的提升。

應用於感知層面的神經網絡模型可以分為兩類,一類是以CNN、RNN為代表的小模型,另一類是Transformer大模型。

神經網絡是一種受生物神經元啟發而產生的深度學習方法,由眾多的感知機構成。

感知機類似於生物學中的神經元,輸入信號經過加權平均運算,若超過某一個閾值則向後傳遞信號,否則被抑制。

不同的神經網絡模型實際就是對感知機之間設定不同的邏輯關系。

單個感知機工作的過程為:

1》感知機前端相當於神經元樹突,接受輸入信號x,可以以向量表示x=《a,b,c》,其中a、b、c分別來自上一個神經元或原始圖像。

2》輸入信號與連接權重向量w=《w1,w2,w3》進行內積運算,這實際是對輸入信號進行加權平均。

3》在相當於神經元軸突的感知機後端設定一個閾值z,當加權平均值達到閾值即xwT+z>0,則感知機被激活向後傳遞信號,否則感知機被抑制。

4》此外,引入非線性因素保證輸出連續,可以對xwT+b整體施加一個激活函數。

1.1.1.1.深度神經網絡DNN是人工智能的開端

深度神經網絡《DNN》又叫多層感知機神經網絡,其中有三個基本類型的層:輸入層、隱藏層《或者叫中間層,可以有多個》、輸出層。

不同層之間的感知機全連接,在推理時,前向《從輸入層到隱藏層到輸出層》傳遞信號得到推理結果。

在學習時則將誤差《真實值和推理值的偏差》反向傳遞《從輸出層到隱藏層到輸入層》,實現對感知機參數《連接權重和閾值》的更新,直至找到使得誤差最小的一組感知機參數。

在自動駕駛感知模塊中輸入數據為圖像,而圖像具有高維數《對比時間序列通常隻是一維向量》,對其識別時需要設置大量輸入神經元以及多個中間層,模型參數量大難以訓練且消耗算力高,並可能帶來過擬合的問題。

1.1.1.2.卷積神經網絡CNN廣泛用於特征提取

DNN識別圖像的本質是對每一個像素點進行比對學習,因此效率較低。

事實上,人類在對圖像進行識別是並不需要對像素點進行逐個對比,而是通過圖像的特征進行識別。

例如識別人臉時,並不需要對每一個像素點都仔細觀比對,而是先搜索臉部的輪廓以及眼睛、鼻子等特征,當這些特征同時出現,就可以判斷圖片中是一張人臉,基於這種思想,CNN卷積神經網絡應運而生,本質上是在信息傳入傳統神經網絡前先做一個特征的提取並進行數據降維,因此CNN圖像處理高緯度向量的任務上更加高效。

CNN能夠高效率處理圖像任務的關鍵在於其通過卷積層、池化層操作實現了降維,模型需要訓練的參數量相比於DNN來說大幅降低,對硬件算力的要求也相對降低。

CNN的模型結構在DNN的全連接層之前增加了卷積層和池化層,用於提取圖像特征並降低數據維度。

舉例而言,對於一個8×8《64像素》的原始圖片,CNN模型中設置一個大小為3×3的濾波器《即卷積核》,『覆蓋』在原始圖片相同大小的區域之後,對應位置元素相乘求和;完成一個位置計算後,向其他區域平移直到覆蓋整個原始圖片。

上述這一過程即『卷積』操作,其中卷積核的值為模型所需要學習的參數。

卷積操作的優勢在於卷積核與原始圖像每一區域進行運算的參數相同,降低了模型所需要學習的參數量。

池化《Pooling》操作是為了提取一定區域的主要特征,並進一步減少後續輸入全連接層的參數量。

如對卷積後6×6的特征圖,選取2×2大小的窗口進行Maxpooling操作《即窗口內取最大值》後,特征圖的長和寬都縮小到原來的1/2。

但是CNN仍然存在一定的缺陷,多次池化會丟失一些的有價值信息,忽略局部與整體之間的關聯性。

例如進行面部識別時,多次池化位置信息有所損失,鼻子、眼睛、嘴特征同時出現,CNN就可能將其識別為人臉。

因此CNN存在誤判的概率。

1.1.1.3.循環神經網絡RNN有效處理有時間序列信息

在自動駕駛場景下,感知還需要時序的信息來完成目標跟蹤以及視野盲區預測等感知任務。

循環神經網絡RNN與CNN一樣都是傳統神經網絡的擴展,相比於CNN在空間上進行拓展,RNN是在時間上的擴展,可以用於描述時間上連續輸出的狀態。

例如自動駕駛場景中可能會出現前方大卡車造成遮擋,如果要判斷視野盲區裡是否有行人就需要結合被卡車遮擋前的信息,由此需要引入循環神經網絡RNN對時序信息進行處理。

RNN與DNN在結構上相近,區別在於RNN在隱藏層引入『循環』,即每一個隱藏層上的每一個記憶體《本質就是感知機》都與上一個時刻隱藏層上的所有記憶連接,這意味著某一時刻網絡的輸出除了與當前時刻的輸入相關,還與之前某一時刻或某幾個時刻的輸出相關。

引入了循環的隱藏層叫做循環核,RNN借助循環核提取時間特征,從而引入了時序上的相關性實現連續數據的預測。

但是RNN的局限主要在於:1》循環核需要存儲,意味著硬件需要具備更大的緩存。

同時記憶體個數越多存儲歷史狀態信息的能力越強、訓練效果越好,但需要訓練的參數量、消耗的資源也越多,二者共同制約RNN,使其難以學到長時間距離的依賴關系。

2》RNN並行能力受限,由於某一時刻網絡的輸出不但與當前時刻的輸入相關,還與上一時刻的輸出結果相關,因此RNN無法進行並行計算,使得計算效率非常受限。

1.1.2.Transformer大模型的注意力機制成為自動駕駛感知算法的利器

Transformer模型的關鍵在於計算輸入序列元素之間的關系權重,最早在NLP領域大放異彩,2020年起在CV領域開始得到廣泛應用。

2017年,谷歌在NIPS發表論文《Attentionisallyouneed》提出了Transformer網絡結構,其基本思想為假設一個有邏輯的序列a=(a1,a2,a3,…,ai,…),如文章的文字序列、語音的聲譜序列等,Transformer模型的關鍵是為每個token《元素》找到與其他token的關系權重。

由此可見,Transformer在處理NLP這樣的序列任務上具有天然的優勢,並迅速成為NLP領域的主流模型。

2020年,VIT《VisionTransformer》網絡把一個圖片按序切成一個個小片《Patch》後再應用Transformer模型架構,標志著Transformer正式進軍CV領域,並在目標檢測、分割等任務中均表現出色。

Transformer成功的關鍵在於引入注意力《attention》機制。

可以對注意力《attention》機制直觀理解為『隻關注重要的信息而非全部信息』,比如當我們視線掃過大片文字,注意力會停留在其中的關鍵詞及關鍵詞之間的邏輯關聯上,而對其餘信息則印象不深。

神經網絡模型中引入注意力記住的好處在於可以解決存儲時間長度有限的問題《隻關注過往信息中有用的而非全部》,同時又沒有重要信息的丟失。

注意力機制可以通過運算得到一個矩陣,包含任一個元素和其他元素之間多角度的關聯度的信息。

如圖所示,不同的顏色代表不同的維度,顏色越深代表在這個維度上兩個元素關聯度越高。

舉例而言,如果識別一個未知的物體X《木床》,這個矩陣就代表在材料維度物體和木桶關聯度最高,在形狀維度和鐵床關聯度最高,通過神經網絡訓練後可以得到正確的結果。

Transformer主要由編碼器《Encoder》和解碼器《Decoder》兩部分組成,編碼器負責把輸入數據編碼成一個向量表示,解碼器則根據這個向量生成輸出數據。

其中編碼器基於多頭自注意力機制《Multi-HeadSelf-Attention》,解碼器基於多頭交叉注意力機制《MultiHeadCross-Attention》。

在Transformer模型中,輸入元素經過三次線性變換,分別得到查詢向量Q《Query》、鍵向量K《Key》和值向量V《Value》。

這三個向量均代表了同一個輸入元素,但經過不同的線性變換後,它們的表示和功能都有所不同。

其中,查詢向量Q用於檢索與當前輸入元素相關的其他元素;鍵向量K用於幫助查詢向量找到與之相關的元素;值向量V用於表示輸入元素的實際信息。

輸出向量可以表示為(,,)=(√),具體的過程如下:1》計算查詢向量與鍵向量的點積,得到注意力得分,點積結果越大表明相似度越高,注意力得分越高。

2》對注意力得分進行縮放和歸一化為概率分佈。

3》用歸一化後的注意力得分對值向量進行加權求和,得到輸出向量。

自注意力機制中,Q、K、V三個參數來自於同一個輸入序列,用序列中所有元素向量的加權和來代表某一個元素的向量,因此自注意力機制可以捕捉輸入數據中的長距離依賴關系,常用於特征提取。

所謂『多頭注意力機制』是一種並行計算的注意力方法,它將輸入數據分成多個部分《稱為『頭』》,然後分別計算各部分的注意力得分。

Transformer憑借優秀的長序列處理能力和更高的並行計算效率,2021年由特斯拉引入自動駕駛領域。

Transformer與CNN相比最大的優勢在於其泛化性更強。

CNN隻能對標註過的物體進行相似度的比對,通過不斷學習完成對該物體識別的任務;而transformer可以通過注意力層的結構找到更基本的元素與元素間之間多個維度的相關信息進而找到一種更泛化的相似規律,進而提高自動駕駛的泛化能力。

同時,不同於RNN存在存儲時間長度有限以及順序依賴的問題,Transformer模型具有更高的並行計算效率並且可以學習到長時間距離的依賴關系。

1.2.特征級融合逐步取代後融合,BEV+Transformer為當前主流方案

自動駕駛感知模塊通常配備多個傳感器《甚至多種傳感器》達到安全冗餘和信息互補的作用,但不同傳感器傳遞的信息存在相互沖突的可能性。

舉例而言,如果一個傳感器識別到前方有行人要求汽車立即剎車,而另一傳感器顯示可以繼續安全行駛,在這種情況下如果不對傳感器信息進行融合,汽車就會『感到迷茫』,進而導致意外的發生。

因此,在使用多種《個》傳感器采集信息時必須進行信息交互、融合。

1.2.1.自動駕駛感知技術從後融合向特征級融合迭代趨勢明確

感知可粗略分為獲取數據、提取特征、完成感知任務三個環節,按照信息融合發生的環節自動駕駛感知技術可以分為前融合、特征融合以及後融合。

後融合即目標級融合,指單個傳感器分別完成感知任務後再進行融合,可理解為有多少個傳感器即需要幾套感知算法。

前融合即數據級融合,指對不同傳感器的原始數據進行空間和時間上的對齊,再從融合數據中提取特征向量進行識別,整套自動駕駛系統僅需要一套感知算法。

而特征級融合是指對傳感器采集的原始數據分別進行特征提取,再進行融合,進而實現對應的感知任務。

後融合方案因易實現、對算力要求低等優勢在自動駕駛發展早期成為主流方案。

後融合方案由中每個傳感器采集原始數據後獨立進行特征提取和目標檢測再由自動駕駛域控制器對進行預測結果融合。

後融合方案具備三個顯著的優勢,1》主機廠在自身感知算法能力有限時可快速量產:後融合算法比較簡單,每種傳感器的識別結果輸入到融合模塊,融合模塊對各傳感器在不同場景下的識別結果,設置不同的置信度,最終根據融合策略進行決策。

且不同傳感器的感知算法可以交由供應商完成,例如Mobileye所提供的單目一體化解決方案即直接輸出感知識別的結果,由此也可以幫助主機廠在自身感知算法能力有限時實現快速量產。

2》對算力、帶寬要求低:根據機器之心的數據,傳感器後融合的策略對車端算力的要求僅在100Tops以內,同時因為傳感器與域控制器之間隻需要傳輸感知結果而非原始數據,對通信帶寬的要求也大大降低。

3》不同的傳感器都獨立進行目標識別,解耦性好,且各傳感器可以互為冗餘備份。

在行業發展的早期階段自動駕駛等級低,對感知精度要求不高,後融合方案憑借上述優勢成為多家自動駕駛廠商的主流選擇,如特斯拉在2020年之前就采用後融合方案。

但隨著自動駕駛的發展,由於後融合方案精度較低《後融合過程中低置信度信息會被過濾掉,產生原始數據的丟失,並且可能誤差疊加》,難以滿足高級別自動駕駛的要求。

同時,後融合是一種基於規則的方法,需要根據先驗知識對傳感器設定置信度,局限性明顯。

前融合方案感知精度相比於後融合大幅提升,但對算法、車端算力要求大幅提升。

前融合通過空間、時間對齊直接融合不同模態的原始傳感器數據再從融合後的綜合數據中提取特征向量進行識別。

前融合方案優勢明顯,通過對原始數據進行融合因而可以保證數據不會丟失,感知精度較高。

同時傳感器無需對原始數據進行處理,原先置於傳感器內部的SoC芯片可以減配。

但問題在於1》需要足夠優秀的融合算法,原始數據數據維度高,特征復雜,網絡理解起來比較困難,因此對於算法的設計要求較高。

2》對車端算力要求大幅提升,需要將原始數據噪聲去除,在時間、空間上將數據對齊而後融合提取特征,這個過程需要消耗大量的算力,根據機器之心數據,車端至少需要500-1000Tops才可實現前融合。

特征級融合方案相比於後融合數據損失小、相比於前融合的算力消耗低,自動駕駛感知技術從後融合向特征級融合迭代趨勢明確,目前主流的方案是在3/4D空間中進行特征級融合。

特征級融合是指在3/4D空間中融合跨模態數據。

先從每個傳感器提供的原始觀測數據中提取代表性的特征,再把這些特征融合成單一的特征向量進而識別。

根據機器之心數據,前融合需要500-1000Tops算力,而特征級融合僅需要300-400Tops算力。

此外transformer算法的發展大大提升了在BEV空間進行特征融合的效果,目前特征級融合成為主流的融合方案。

1.2.2.Transformer大幅提升BEV空間中的特征級融合效果

BEV《Bird’sEyeView》鳥瞰圖也可以稱之為『上帝視角』,是一種用於描述感知世界的坐標系,在BEV空間中可以進行自動駕駛感知模塊的前融合、特征級融合或者後融合。

BEV鳥瞰圖僅是一種對感知世界的表達方式,因此其也可廣泛應用在純視覺方案、多傳感器融合方案以及車路協同方案中。

在BEV空間中進行後融合轉換主要為基於規則的方法。

傳統的BEV轉換方法主要基於IPM《逆透視變換》。

攝像頭所采集到的2D圖像,因透視關系的存在會呈現出近大遠小的情況,如真實世界中平行的車道線在2D透視圖中會表現出不平行。

IPM就是利用相機成像過程中的坐標系轉化關系,對其原理進行抽象和簡化,得到真實世界坐標系和圖像坐標系之間坐標的對應關系,並進行公式化描述,從而消除這種透視效應。

但IPM方法依賴於嚴苛的假設,如地面是完美水平、相機和地面之間不存在相對運動,因此任何的車輛顛簸或者道路有高度變化都會打破這一假設,使得BEV輸出的圖像面臨失真。

同時,由於透視投影,在2D圖像中完成不錯的感知結果投影到BEV空間中精度很差,尤其是遠距離的區域。

為了克服以上問題,當前主流的方案是在BEV空間中基於深度學習的方法做特征級融合。

具體的流程如下:BEV感知的基本過程為:1》特征提取:傳感器采集原始數據《2D透視圖》輸入到共享的骨幹網絡《Backbone》,分別提取數據特征《feature》。

2》空間變換+特征級融合:在BEV空間內,對分別提取到的特征進行融合,包括多個攝像頭數據特征的融合和多種類傳感器的數據融合,比如將像素級的視覺數據特征和激光雷達點雲特征進行融合。

3》融入時序形成4D空間:時序信息對於自動駕駛感知任務十分重要,通過時序信息可以判斷面前的車是否出於移動狀態並且可以連續預測。

4》多任務輸出:包括靜態語義地圖、動態檢測和運動預測等,輸出下遊規控模塊使用。

在BEV空間中做特征級融合早期的代表性算法為英偉達2020年提出的LSS算法,是基於深度分佈估計進行BEV空間轉換的開山之作。

攝像頭所采集到的2D透視圖缺失了深度信息,LSS算法的基本思想是對CNN共享網絡提取的特征圖做深度估計,並且這裡的深度估計並不是一個確定的值,而是給出一系列的概率分佈,由此生成3D的視錐點雲。

最後再通過相機的內外參轉換到BEV空間中。

Transformer交叉注意力機制對於BEV空間轉換任務適配性較高,目前成為特斯拉、小鵬等自動駕駛廠商主流的技術方案。

與基於深度分佈估計方法最顯著的區別在於基於交叉注意力機制的方法沒有顯示的深度估計,而是用注意力機制直接進行不同序列《指2D特征圖和BEV視圖》之間的轉換。

如前文所述,交叉注意力機制中的Query和Key/Value來源不同,因此天然適配於不同域之間的數據轉換。

在2D特征圖向BEV空間轉換的過程中,首先將BEV空間分割成3D格柵,之後將它們編碼成一組Query向量,去2D特征圖中查詢對應的點,從而實現空間的轉換。

根據2021年特斯拉AIDay,通過Transformer交叉注意力機制在BEV空間內做特征級融合的效果遠好於基於規則的方法在BEV空間內後融合。

AI大模型的應用對自動駕駛領域所帶來的好處?

2.1.城市NGP落地在即,AI大模型的應用驅動自動駕駛算法具備更強的泛化能力

自動駕駛向更高等級邁進,城市領航輔助駕駛落地在即。

當前大多數主機廠實現了L2級別的自動駕駛,車輛可以在單一功能下實現車輛的橫向和縱向控制,比如TJA《交通擁堵輔助》、HWA《高速駕駛輔助》、APA《自動泊車輔助》等,根據高工智能汽車數據,2022年中國L2級輔助駕駛《含L2+》前裝標配交付585.99萬輛,同比增長61.66%,前裝搭載率升至29.40%。

2021-2022年國內新勢力和自主主機廠旗下新設的新能源品牌陸續落地高速領航輔助駕駛,達到了L2+級別自動駕駛,能夠在高速《+匝道》場景下由自動駕駛系統獨立完成橫縱向車身控制。

目前,主機廠正逐步從高速領航輔助駕駛向城市領航輔助駕駛拓展,2021年7月特斯拉率先在北美推送FSDBetaV9測試城市道路完全自動駕駛功能,國內主機廠中小鵬、理想、長城毫末、華為極狐等也於2022-2023年明確計劃推出城市場景下的領航功能。

城市場景具有高頻+剛需特征,城市領航系統的成熟應用可使得駕駛體驗擁有質的提升。

根據小鵬科技日公開數據,用戶在用車過程中,途徑城市場景的用戶數量達到100%,途徑時長及裡程的滲透率達到90%和71%,因此城市場景具備高頻特征。

此外城市場景交通復雜程度高,駕駛人注意力需要高度集中確保駕駛安全、同時交通堵塞等降低駕駛效率的情況不可避免,使得城市場景本身是駕駛人的痛點,在城市場景下實現自動駕駛具備剛需特征。

而從高速場景拓展到城市場景,意味著車輛所遇到的長尾問題《或者說是Cornercase》大幅提升。

高速場景在特定路段下較為封閉,交通環境的標準化程度高;且高速駕駛規定對車輛的駕駛行為進行了明確的規范,交通參與者單純不涉及到行人,並且駕駛狀態的可預測性更強,因此高速NOA成為率先落地的場景。

然而,城市場景下道路及路況復雜《紅綠燈路口》、交通參與者多《行人、低速兩輪車》、場景異質性強《不同城市甚至不同路段路況差異性大》,自動駕駛遇到的Cornercase大幅提升。

因此,城市領航輔助駕駛的落地需求對自動駕駛模型的泛化能力提出更高的要求,同時考慮到商業化落地的成本約束,我們認為,應用AI大模型提高泛化能力+降低/控制車端硬件成本是自動駕駛算法演變的核心脈絡。

2.2.從特斯拉感知算法迭代歷程看AI大模型對城市NGP的賦能方向

簡單復盤特斯拉算法迭代歷程:1》2018年之前:後融合策略,在每個視角下處理多個task,將單個圖片檢測得到的結果再進行融合。

3》2020-2021:多個攝像頭輸入多個image,分別經過多個主幹網絡,抽取每個image特征,經過BEVtransformer轉換,特征投影到BEV視角,再完成很多個task,實現特征級概念的融合。

4》2022:從BEV升級到占用網絡,達到『偽激光雷達』的效果。

總結來看,特斯拉從『第一原則性』角度出發,堅持純視覺方案。

從特斯拉算法迭代方向來看,追求泛化,通過視覺的方案刻畫真實的物理世界。

2020年8月馬斯克發佈推特稱特斯拉正在重構自動駕駛底層算法,2021年7月特斯拉正式推送FSDBetaV9.0,通過重寫感知算法讓特斯拉只要用純視覺就可以實現城市級別的完全自動駕駛;2022年11月特斯拉開始推送FSDBetaV11版本,進一步提升占用網絡算法,在近距離障礙物召回和惡劣天氣條件下的精度,Transformer空間分辨率提高了4倍。

2.2.1.第一階段:BEV+transformer,實現『脫高精度地圖』

高精地圖能夠提供超視距、厘米級相對定位及導航信息,在數據和算法尚未成熟到脫圖之前,尤其針對國內的復雜路況,其對主機廠實現高階自動駕駛功能具有重要意義,現階段國內主機廠實現城市領航輔助駕駛落地的主要基於高精度地圖+單車感知的方案。

但高精度地圖方案缺陷較為突出,在自動駕駛感知算法成熟之後,『脫高精度地圖』趨勢明確。

高精度地圖的生產流程,首先需要搭載高精度傳感器的數據采集車進行數據采集,之後將采集的點雲數據用SLAM算法拼接配準後,標註員把所有的地圖中元素標註出來,這一流程與自動駕駛感知過程具有相似之處。

在應用過程中最為突出的三個問題為:1》無法做到實施更新;2》法規風險;3》高成本。

難以實施更新:高精地圖數據規模巨大,導致制圖和更新都耗費較長時間。

據統計高精地圖中對於單條道路的采集需要14億個數據點;僅以靜態地圖層為例,Waymo單日數據采集量達到1TB也僅覆蓋約8h車程。

圖商在采用專用采集車更新1次全國高速公路和城市快速路的高精度地圖的頻率約為3個月,通過《出租車》眾包方式更新頻率也僅能提升至月度頻率。

然而,道路環境的變化是實時發生的,不能做到實施更新的高精度地圖可靠性大幅下降。

自動駕駛感知算法向BEV+transformer架構升級,助力城市領航輔助駕駛脫高精度地圖。

自動駕駛車輛通過相機拍到的是透視視圖,即3D世界在2D世界的投影,並且處於不同安裝位置的相機提供的是不同視角下的投影,然而所有自動駕駛的決策和路徑規劃都是在車輛所在的3D世界下進行的,這樣的維度不匹配就使得基於感知結果直接進行自動駕駛變得異常困難。

以人類駕駛舉例而言,新手學倒車時難以利用後視鏡觀察到的場景與車子與周圍環境的3D空間聯系,即缺乏從倒視鏡圖像平面到自車坐標系空間轉換的空間理解,因此新手靠倒車鏡很容易發生誤操作造成剮蹭。

2021年特斯拉AIDay中提出BEV鳥瞰圖感知技術就是為了解決這一問題。

BEV鳥瞰圖可以理解為在車輛正上方10-20米的位置有一個直升機俯視車輛及周圍環境的視角,從輸入的不同視角的圖片到BEV鳥瞰圖本質上就是一個坐標系的變化。

同時特斯拉BEV感知模型為特征級融合,極大的提高了模型在極端天氣工況下的應對能力。

在後融合中,由攝像頭中的視頻芯片判斷采集數據是否合格並進行處理,再傳到自動駕駛域控制器中,這裡需要注意的時,攝像頭中芯片判斷采集數據是否合格的標準本質上是人的標準。

在後融合模型下,如果遇到極限雨雪天極限天氣工況,攝像頭采集到的數據/視頻流清晰度大幅下降,很難達到攝像頭判斷合格的標準,因此傳遞給後端做規劃控制的結果大幅下降。

與後融合模型不同,從不同視角的攝像頭采集到的圖片轉換到BEV視角的過程中是特征級的融合,比如在極端天氣工況下有一些光子信息依然反應了前方障礙物的情況可以用於後續的規劃控制,在特征級融合的框架下感知模型對數據的利用率明顯提升。

BEV鳥瞰圖相當於自動駕駛車輛實施生成『活地圖』,因而可以實現去高精度地圖化。

相比於導航地圖,高精度地圖能夠提供更多的道路拓撲信息,比如紅綠燈、車道線、斑馬線、坡度、曲率、車道數的精確信息,而導航地圖會具有10-20米的誤差。

BEV模型通過將不同視角的攝像頭采集到的圖片統一轉換到上帝視角,相當於車輛實施生成活地圖,補足了自動駕駛後續決策所需要的道路拓撲信息,因而可以實現去高精度地圖化。

一方面高精度地圖方案在城市場景下缺陷明顯,同時特斯拉BEV+Transformer方案為行業『脫圖』提供了技術上的可行性,我們認為『輕地圖,重感知』將成為行業發展的主流方向,小鵬等國內自動駕駛廠商均提出『脫圖』時間表。

在小鵬1024科技日中,負責人吳新宙多次強調未來G9搭載的XNGP自動駕駛系統將無需依賴高精地圖,實現城市、高速和地下停車場的全場景應用,其主要的思路是在原有硬件基礎上,推出新的視覺感知架構XNet。

其利用多相機多幀和雷達傳感器數據的融合算法,直接輸出BEV視角下交通參與者的靜態和動態信息《狀態、速度、行為預測等》,具備實時生成高精地圖的能力。

與特斯拉不同,小鵬仍保留了激光雷達傳感器提供感知冗餘,預計將引領主機廠實現脫圖技術上的突破,拓寬全場景領航駕駛的應用城市。

2.2.2.第二階段:升級到占用網絡,實現『脫激光雷達』

從BEV升級到占用網絡,進一步提升泛化能力。

特斯拉在2022年AIDay中展現了OccupancyNetwork感知技術。

基本的思想是將三維空間劃分成體素voxel《可以理解為微小立方體》,再去預測每個voxel是被占用還是空閑,通過0/1賦值對voxel進行二分類:有物體的voxel賦值為1,表示voxel被物體占據;沒有物體的voxel被賦值為0。

實際中的賦值可以是概率值,表示voxel存在物體的概率。

占用網絡感知技術本質上是為了解決更多的長尾問題。

純視覺方案被質疑的一大問題在於對於沒有在訓練集中出現過的物體,視覺系統則無法識別,比如側翻的白色大卡車,垃圾桶出現的路中,傳統視覺算法無法檢測到。

占用網絡模型的基本思想是『不考慮這個物體到底是什麼,隻考慮體素是否被占用』,則從根本上避免了這一問題,大幅提升了模型的泛化能力。

從特斯拉AIDay演示效果來看,特斯拉通過體積鳥瞰圖、占用檢測和體素分類使純視覺方案已經達到『偽激光雷達』效果。

增配4D毫米波雷達,進一步保證安全性,徹底取代激光雷達。

特斯拉HW4.0預留4D毫米波雷達接口,或將重啟毫米波雷達,彌補純視覺算法不足。

對於純視覺算法而言實際是缺乏高度信息,3D信息依靠『近大遠小』來估算,如果說前方道路上有一張畫著立體卡車的畫,視覺算法難以判斷這是一張畫還是真的有一輛車,而4D毫米波雷達能很好的解決這一問題。

從成本來看,4D毫米波雷達價格低於高線束激光雷達。

根據焉知汽車數據,MEMS激光雷達價格大概在3000-9000元不等,同時根據高工智能汽車數據,4D毫米波雷達售價為1000-2000元。

2.2.3.第三階段:從感知到決策控制端到端的自動駕駛模型有望成為未來發展方向

在當前自動駕駛模型架構中將駕駛目標劃分為感知、規劃、控制三個大的模塊,而端到端則打破模塊之間的劃分,直接輸出最終的結果。

現有的模型思路是感知模塊輸出BEV鳥瞰圖《或者Occupancy》的結果,規劃和控制模塊再依據BEV鳥瞰圖結果進行預測和執行。

而在端到端《end-to-end》模型中,輸入數據是攝像頭采集的到的視頻流raw-data,輸出數據直接是如方向盤轉角多少度的控制決策。

端到端的思路更類似於人的駕駛過程,人的駕駛決策往往基於經驗,司機駕駛車輛時並不會刻意對基於視覺/眼睛提供的信息進行分析,即不會去判斷我看到了什麼,也不會對看到的物體和狀態做分析,駕駛員固有的『經驗』所活躍的腦質皮層在一種『黑盒』的狀態下,完成駕駛決策,並協調耳眼手腳,共同完成駕駛任務。

AI技術將『場景-駕駛行為』的映射轉變為『場景-車輛控制』的『端到端』式映射。

深度強化學習《DRL》結合了深度學習算法的『感知能力』和強化學習算法的『決策能力』,為復雜駕駛場景的感知決策問題提供解決方案。

其中,深度學習負責復雜駕駛場景的感知和特征提取如同人類的眼睛;強化學習部分通過馬爾可夫決策過程完成推理、判斷和決策如同人腦。

DRL的原理框架是一種是端到端感知和決策控制系統。

目前部分自動駕駛參與者對於特定的功能已可以實現端到端。

如2016年英偉達發表的論文EndtoEndLearningforSelf-DrivingCars中介紹了實現車道保持功能的端到端模型。

CNN深度神經網絡在對於視覺信息處理之後《通過卷積層》,會通過全連接層給出一個基於以前學習經驗得出的方向盤角度《Steeringcommand》,而此時此刻真實的人類操作也將被引入與CNN的輸出進行對比。

對比的結果/偏差被送回CNN網絡去矯正那個黑盒狀態下的全連接層參數。

這裡需要特別注意的是,在整個端到端模型中,不存在單獨的『圖像識別檢測』任務。

端到端理論上可以更大程度的提高模型的泛化能力,有望成為自動駕駛模型進一步發展的趨勢。

我們對比當前Occupancy的輸出結果和人駕駛時做判斷的依據,可以發現Occupancy依然具有信息的損失。

舉例而言,人在駕駛車輛時可以參考行人的姿勢等來輔助決策,然而在現有感知模型輸出Occupancy結果則丟失了這一信息。

因此,相比於現有的感知、決策、歸控區分模塊的自動駕駛模型結果,端到端模型做出決策的依據信息量更大,模型自身的自由度也更大,因而具備更強大的泛化能力。

AI大模型應用於自動駕駛中的前置條件?

3.1.條件一:具備相當數量的裡程數據,因而自動標註+仿真平臺環節將尤為重要

Transformer大模型量變引起質變需要1億公裡的裡程數據。

相比於CNN小模型來說,Transformer需要更大量的數據來訓練模型。

根據毫末智行CEO顧濰顥在毫末AIDAY上表示,訓練出一個能輸出高精度和準確度的自動駕駛大模型,自動駕駛測試裡程數據需至少達到1億公裡。

同時,訓練Transformer大模型相比於CNN小模型來說所要求的數據顆粒度不同《如傳感器配置、精度不同》,因此在小模型時代所積累的數據存在部分無法用於大模型的訓練。

對於自動駕駛廠商而言,所積累的數據量、對數據的處理極大的影響自動駕駛模型的迭代速度。

自動駕駛訓練所需要的真實數據來源主要包括采集車數據和眾包數據。

自動駕駛廠商具有專業的測試車隊,搭載高性能的傳感器用於采集真實場景的數據,這裡需要注意的是,即便對於特斯拉這樣純視覺路線的廠商,采集車通常也搭載有激光雷達,用於測試中的真值校驗。

除此之外,對於有量產車的主機廠而言,可以通過『眾包采集』的方式迅速收集數據。

如特斯拉首創的『影子模式』,在有人駕駛狀態下,系統包括傳感器仍然運行但並不參與車輛控制,隻是對決策算法進行驗證——系統的算法在『影子模式』下做持續模擬決策,並且把決策與駕駛員的行為進行對比,一旦兩者不一致,該場景便被判定為『極端工況』,進而觸發數據回傳。

其中,傳感器采集得到的raw-data需進行標註後才可用於算法模型訓練,自動標註工具可大幅提升數據處理速度。

2018年至今,特斯拉數據標註經歷了4個發展階段:1》第1階段(2018年之前):隻有純人工的2維的圖像標註,效率較低;2》第2階段(2019):人工進行3D固定框的圖像標註;3》第3階段(2020):采用BEV空間進行標註;4》第4階段(2021):首先對場景進行重建後在4D空間中進行標註,精度、效率都得到大幅提升。

特斯拉自動標註系統可以取代500萬小時的人工作業量,人工僅需要檢查補漏。

國內廠商中小鵬、毫末智行等亦相繼推出自動標註工具,在降低人工成本的同時,效率得到顯著提升。

根據小鵬科技日資料,小鵬推出的全自動標註系統將效率提升近45,000倍,以前2,000人年的標註量,現在16.7天可以完成。

毫末智行在AIDay中表示毫末基於視覺自監督大模型,實現4DClip的100%自動標註,原先依靠的人工標註成本則降低98%。

目前仿真場景主要由遊戲引擎生成,基於基礎的現實世界數據保證仿真場景與真實場景之間的相似度,並依靠交通要素間的重新組合提高泛化能力。

以特斯拉SimulationWorldCreator為例,1》由經自動標註的真實場景數據中提取隔離帶邊界、車道線、道路連接信息等來生成路面網格並進行車道線等渲染;2》植物通過豐富的素材庫在路間和路旁隨機生成植物房屋等來模擬真實世界中這些物體引起的遮擋效應;3》由導航地圖提供信號燈、路牌等其他道路元素;4》加入車輛和行人等動態元素。

在這一過程中,通過道路街景隨機生成以及車道鏈接關系的隨機生成提高了模型的泛化能力。

英偉達自動駕駛仿真平臺DRIVESim通過Replicator合成數據工具來縮小仿真數據與真實數據之間差異並提高場景泛化能力。

英偉達DRIVESim中的DRIVEReplicator提供了一個生成各種合成數據集,並具備真值標簽的平臺,其主要特點有以下兩點:1》DRIVESim對傳感器輸出數據的模擬更貼近真實情況,通過RTX光線追蹤技術可以模擬傳感器在真實物理環境下多次反射、多路徑效應、滾動快門和鏡頭失真等問題;2》域隨機化,常規的仿真平臺隨機發生器僅對仿真環境中的對象、行為進行隨機,而DRIVESim還具有3D場景外觀及光照情況進行隨機化的能力,如可以對路面潮濕程度、太陽方位角及高度角等方面進行更改來增強場景的泛化能力。

生成式AI有望推動仿真場景大幅提升泛化能力,幫助主機廠提升仿真場景數據的應用比例,從而提高自動駕駛模型的迭代速度、縮短開發周期。

當前仿真場景對實際路測中所遇到的邊緣案例主要通過人工進行泛化,如量產車在影子模式下遇到某一個cornercase並進行數據回傳後,在虛擬引擎中進行場景重建,再通過人為添加要素,如增添雨霧環境、增加交通參與人數等方式對原始場景進行梯度泛化。

但對場景的泛化能力依賴於工程師對於場景的理解,且存在經由手動添加元素後的場景與真實場景的擬合度不高的問題。

生成式AI有望在針對真實場景中的cornercase進行場景泛化的過程中取代人工,可以迅速泛化出大量的、與真實世界高擬合度的虛擬場景,進而提高自動駕駛模型的迭代速度。

3.2.條件二:具備相當算力的雲端訓練平臺,因而超算中心將成為主機廠必要基礎設施

自動駕駛Transformer大模型應用對算力的需求來自於兩個方面,分別是雲端算力和車端算力。

雲端算力需求體現在大模型的預訓練環節,可以理解為尋找模型參數值的過程,同時仿真測試中的場景渲染和搭建也對算力提出較高要求,上述過程均要求海量的算力需求並且通常是集中訓練。

車端算力用於量產車上自動駕駛模型推理的過程,可以理解為將訓練好的自動駕駛模型部署在車端,輸入自動駕駛汽車實時采集的圖像輸入到訓練好的模型中,依據模型參數算出結果的過程。

毫末CEO顧濰顥在毫末AIDay中表示,基於Attention的大模型會將大量的『關注』放在弱關聯《與所求結果關聯度不高的參數》運算上,導致Transformer所需算力是CNN所需算力的100倍。

超算中心初始投入高,小鵬自動駕駛基礎設施建設國內領先。

根據IDC數據,主機廠及一級供應商對搭建人工智能計算中心的預算普遍超過1億人民幣,超過2億人民幣投入的主機廠占比超過20%;從超算中心的部署周期來看,通常需要3個月左右的時間。

小鵬是國內最先佈局超算中心的整車廠。

2022年8月小鵬汽車成立自動駕駛AI智算中心『扶搖』,由小鵬和阿裡聯合出資打造。

據小鵬汽車CEO何小鵬介紹,該中心具備60億億次浮點運算能力《60000TFLOPs》,可將自動駕駛算法的模型訓練時間提速170倍,並且未來還具備10~100倍的算力提升空間。

©版權聲明:『聚汽觀察』所推送的文章,除非確實無法確認,我們都會註明作者和來源。

部分文章推 送時未能與原作者取得聯系。

若涉及版權問題,煩請原作者聯系我們,與您共同協商解決。

聯系方式/商務合作:袁小姐 18296150912,聚汽觀察投稿郵箱:[email protected])