歷時7年,特斯拉自動駕駛寫了一篇逆襲爽文。

特斯拉自動駕駛的重大彩蛋出現了。

特斯拉自動駕駛的重大彩蛋出現了。

國外黑客大神 GreenTheOnly 在特斯拉 FSD Beta 的代碼中發現了一段隱藏代碼。

據了解,這段代碼可以開啟一個全新的模式「Elon Mode」《埃隆模式,代碼以馬斯克名字命名》。

歷時7年,特斯拉自動駕駛寫了一篇逆襲爽文。

如果車輛時速在 60km/h 以下,開啟這一模式,車輛可以實現 L3 級自動駕駛,無需雙手把持方向盤。

可以說,特斯拉在技術上已經有能力實現 L3 級自動駕駛。

隻是,目前其仍沒有拿到政府的相關批準。

在自動駕駛領域,特斯拉一騎絕塵。

但是,領先地位的鑄就並非朝夕。

復盤特斯拉自動駕駛發展歷程,實際上不亞於看了一篇逆襲「爽文」。

即使是特斯拉,也經歷了從落後,到追趕超越,再到稱王加冕,自我超越的五個時期。

2016 年,在 Mobileye 首先官宣「分手」後,特斯拉便開始自研算法。

期間有一段時間,其算法表現甚至不如 Mobileye。

直到 2020 年,重構算法後,特斯拉才確立了行業領頭羊的地位。

在這一時期湧現的 BEV、Transfomer、自動標註等技術,現如今已經成為如今行業普遍延用的技術路線。

但特斯拉並未止步,又對算法進行了升級,比如時序信息的加入,升級到占用網絡。

自始至終,特斯拉追求的就不是「武林第一」的頭銜。

特斯拉的目標隻有一個:在純視覺方案下,如何用算法刻畫真實的物理世界,以實現自動駕駛。

總結來看,堅持視覺方案,特斯拉從「第一性原則」出發,針對算法問題進行持續迭代,使算法更趨向於理解真實世界。

01、自研算法誕生前夜,特斯拉與 Mobileye 分手

2016 年 5 月 7 日,一場發生於美國的車禍引起了全球的關注。

一輛 Model S《2015 年款》在使用 Autopilot 狀態下,攔腰撞向了一輛垂直方向開來的白色掛車,事故導致了一人死亡。

彼時,這起事故被媒體冠以「全球首宗自動駕駛致命事故」的標題經大肆報道。

在鋪天蓋地的報道之下,特斯拉的 Autopilot 成了眾矢之的。

特斯拉和 Mobileye 的合作開始於2014 年。

2014 年 10 月,特斯拉發佈第一代硬件 Hardware 1.0,軟硬件均由 Mobileye提供,自動駕駛芯片是 Mobileye 的 EyeQ3

而在上述事故發生的兩個月後,2016 年 7 月,Mobileye 宣佈了和特斯拉終止合作。

供應商搶先聲明雙方合作破裂,這在汽車市場來說頗為罕見。

對於分手原因,彼時雙方各執一詞。

在特斯拉看來,Mobileye 的黑盒模式是雙方分手的原因所在。

特斯拉曾在一份文件中直言:黑盒模式之下,Mobileye 難以跟上特斯拉產品的發展步伐。

而 Mobileye 則表示:因為特斯拉的自動駕駛功能「超過了安全的底線」,因此才終止了雙方的合作。

實際上,雙方的分手早有預兆。

2015 年,特斯拉就開始佈局自研自動駕駛軟硬件,Mobileye 被棄用隻是時間問題。

2015 年 4 月,特斯拉組建了基於計算機視覺感知的軟件算法小組 Vision,準備自研軟件。

同年,特斯拉還從 AMD 挖來了傳奇芯片設計師 Jim Keller

隨後,在 2016 年,特斯拉開始組建芯片研發團隊,並由 Jim Keller 擔任 Autopilot 負責人。

和眾多俗套的情愛故事一樣,與 Mobileye 分手之後,特斯拉也經歷了短暫的低谷和失落。

但在隨後的日子裡,失意的特斯拉最終成長為自動駕駛領域領頭羊。

02、2016 年-2018 年特斯拉初出茅廬

在告別了 Mobileye 之後,特斯拉選擇全棧自研自動駕駛算法,自立自強。

在自動駕駛軟硬件發展思路上,馬斯克為特斯拉制定了「硬件先行,軟件更新」的思路。

硬件方面,2016 年 10 月,特斯拉還發佈了第二代硬件 Hardware 2.0

自動駕駛芯片由英偉達提供,配置 8 個攝像頭+12 個遠程超聲波雷達+1 個前置毫米波雷達,並且這一套配置延續到了 Hardware3.0

算法方面,特斯拉延用了業內常規的骨幹網結構;使用 2D 檢測器進行特征提取;以人工對數據進行標註。

整體來看,這一套自動駕駛算法還比較原始,相對傳統。

值得一提的是,在這一時期,特斯拉自動駕駛算法仍處於技術追趕階段。

硬件配置來看,盡管 HW2.0 優於此前 Mobileye 提供的的 HW1.0,但受限於軟件算法,彼時特斯拉的自動駕駛能力和 Mobileye 有著較大差距。

盡管2016 年 10 月,特斯拉推出了 HW2.0,但在空跑了大半年後,直到2017 年 3 月,Model3/Y 才開始能夠真正用上 Autopilot 功能。

在算法能力追上 Mobileye 後,特斯拉發現,當前使用的算法存在著諸多不足。

其中,最為明顯的是效率問題。

在那一時期,自動駕駛的目標檢測普遍遵循一個通用的網絡結構:

InputbackboneneckheadOutput

主幹網絡 backbone 為特征提取網絡,主要用於識別圖像中的多個對象;

neck 則主要負責提取更為精細的特征;

而在經過特征提取之後,檢測頭 head 則為提供了輸入的特征圖表示,比如檢測對象,實例分割等。

值得一提的是,當時業內自動駕駛視覺神經網絡都隻有一個 head。

但是,在自動駕駛的場景中,往往需要在一個神經網絡中同時完成多項任務,比如車道線檢測,人物檢測與追蹤,信號燈檢測等。

這就使得原有算法出現了「腦袋不夠用」的情況。

因此,在 2018 年,特斯拉開始了對自動駕駛算法的第一次革新,瞄準自動駕駛網絡結構及效率。

03、2018 年-2019 年算法利刃初成

在這次算法革新中,特斯拉構建了多任務學習神經網絡架構 HydraNet,並使用了特征提取網絡 BiFPN

這使得特斯拉算法效率得到了提升。

其中,最具特色的為 HydraNet。

Hydra 一詞源於傳說中的生物「九頭蛇」,因而 HydraNet 也被稱為「九頭蛇網絡」。

以「九頭蛇」命名的原因在於,HydraNet 結構能夠完成多頭任務,而非此前的單一檢測。

相較於此前算法,HydraNet 能夠減少重復的卷積計算,減少主幹網絡計算數量,還能夠將特定任務從主幹中解耦出來,進行單獨微調。

不過,此次革新更多是一次算法的「微調」,並沒有達到重構和跨越性的程度。

在融合方式上,特斯拉采用的仍是後融合策略,數據進行人工標註,且自動駕駛算法仍舊是小模型,與後續算法革新相比,並沒有太大的突破。

這一時期,在改良了傳統算法之後,特斯拉還對硬件進行了新一輪的更新。

在歷經四年研發後,2019 年 4 月,特斯拉發佈了 Hardware 3.0 系統。

其中最大的亮點是特斯拉采用了自研的 FSD 芯片

特斯拉 FSD 芯片算力達 72TOPS,遠高於當時市面上的自動駕駛芯片。

同時,FSD 芯片以兩塊 NUD 為主,圖片處理效率更高,且不裝配激光雷達。

新硬件的發佈,為特斯拉算法的下一次迭代提供了可能。

在完成硬件準備的前期工作之後,特斯拉開始了對自動駕駛算法的史詩級重構。

04、2020 年特斯拉自動駕駛一騎絕塵

2020 年 8 月,馬斯克在推特上發文稱,Autopilot 團隊正對軟件的底層代碼進行重寫和深度神經網絡重構;全新的訓練計算機 Dojo 正在開發。

馬斯克的一封推文激起浪千重。

市場對特斯拉自動駕駛算法的發展方向投以關注。

在他看來,對 AP 的重寫,不是對現有結構的優化,而是一場「量子式躍遷」。

縱覽特斯拉自研算法近十年歷程,2020 年可以說是其最為璀璨的一年。

在這一場行業重構中,特斯拉帶來的一系列技術方向被自動駕駛行業延用至今,如 BEV+Transformer 的組合,特征級融合取代了後融合,數據自我標註取代人工標註等。

如果說 2020 年自動駕駛江湖是群雄逐鹿時期,那麼,自 2020 年之後,這片江湖便進入了特斯拉時代。

(1》BEV+Transformer,自動駕駛進入大模型時代

在特斯拉的這場技術重構中,最為引人註目的便是於 2020 年引入的 BEV+Transfomer 架構。

在特斯拉看來,過去自動駕駛依靠「2D 圖像+ CNN」便企圖實現全自動駕駛是不太可能的。

主要原因在於,攝像頭采集的數據是 2D 圖像,但自動駕駛需要面對的卻是三維真實世界。

以二維數據解決三維問題,不大現實。

純視覺路線之下,攝像頭拍攝的 2D 圖像如何「升維」到 3D,成了特斯拉需要思考的問題。

在特斯拉看來,2D 圖像「升維」的最佳表達方式是:BEV《鳥瞰圖》。

BEV 視角,形成車身自坐標系的好處在於兩方面:

一是將不同視角在 BEV 下統一表達是很自然的描述,有利於後續規劃控制模塊任務;

二是 BEV 視角解決了圖像視角下的尺度和遮擋問題。

但緊接著問題就來了:如何實現 2D 向 3D 的轉換,以引入 BEV?

2D 圖像是照片,存在近大遠小的問題。

而解決「近大遠小」問題的傳統轉變方法是依靠 IPM《逆透視變幻》,進行先 2D 再 3D 的正向開發。

IPM,簡而言之,就是利用照相機成像過程中坐標轉換的公式,在已知照片的光圈,焦距等條件下,去「算出」3D 坐標數據,對 2D 的圖像進行「3D 復原」。

但是,和課堂上的算數題一樣,這樣的計算需要以各種「完美」假設為前提。

比如,地面是「完美」水平的,相機和地面不存在相對運動等。

也即是說,只要車輛有任何一點顛簸,道路有一點不平,就會打破這個假設,導致最終的成像結果失真。

另外,在一系列卷積,提取特征,融合之後,得到的感知結果,再投影到 BEV 空間中,精度很差,尤其是遠距離的區域。

以此來看,利用傳統方法,實現從 2D 到 3D 的「升維」,很難實現。

在這樣的情況下,特斯拉引入大模型 Transformer,進行 3D 到 2D 的逆向開發。

在這一方式中,特斯拉先在 BEV 空間層中初始化特征,再通過多層的 Transformer 和 2D 圖像特征進行交互融合,最終得到 BEV 特征,也就是先 3D 再 2D,反向開發,實現 BEV 的轉換。

Transformer 是一種基於注意力機制《Attention》的神經網絡模型。

與傳統神經網絡 RNN 和 CNN 不同,Transformer 不會按照串行順序來處理數據,而是通過注意力機制,去挖掘序列中不同元素的聯系及相關性。

這種機制背後,使得 Transformer 可以適應不同長度和不同結構的輸入。

Transformer 的引入,使得 BEV 視角在自動駕駛領域得以實現。

而 3D 空間的引入,使得自動駕駛的思維方式,更接近於真實世界。

但是,在這一階段,BEV 空間仍是對瞬時的圖像片段進行感知,缺乏時間序列信息,自動駕駛仍未進入 4D 空間。

《2》特征級融合取代後融合成為主流

BEV 即鳥瞰圖,「上帝視角」,車身自坐標系。

若僅從定義來看,BEV 或許是特斯拉各類「燒腦」術語中最容易理解的。

但這絲毫不影響 BEV 對自動駕駛行業的價值和意義。

引入 BEV 視角後,給自動駕駛帶來最直觀的變化是,推動 2D 圖像向 3D 車身自坐標系的轉變,方便後續的決策和控制。

但除此之外,BEV 還使得自動駕駛從後融合《或稱「決策層融合」》向特征級融合《或稱「中融合」》方向邁進。

同一物體在不同傳感器視角中的狀態

自動駕駛的每一個傳感器,都在對周遭世界進行感知。

每個攝像頭、雷達都包含了其對真實世界的理解,但由於角度,傳感器類型的不同,使得車輛沒辦法依靠一個傳感器完成對周遭世界的認識。

因此,每個傳感器所感知的隻是現實世界的其中一塊拼圖,要實現自動駕駛,便需要完成拼圖拼湊。

而傳感器數據的融合則可以看成是拼圖的拼湊步驟。

所謂的後融合,便是由決策層域控制器進行拼圖的拼湊。

後融合的好處非常明顯,傳感器「即插即用」,融合在域控制器決策層,對芯片算力要求較低。

後融合策略對車端算力要求僅在 100TOPS 以內,作為參考,前融合卻需要500-1000TOPS 算力

而特征級融合介於兩者之間,大約需要 300-400TOPS

因此,在自動駕駛的早期,由於門檻低,後融合策略受到了自動駕駛供應商、車企的歡迎。

但是,後融合策略容易產生信息失真,造成錯誤決策。

後融合策略下,低置信度信息會被過濾掉,產生原始數據的丟失,並且可能誤差疊加,導致信息「失真」。

尤其是在惡劣天氣下,這樣的情況更為明顯。

這就有可能造成決策層錯誤決策。

相較於後融合策略,特征級融合本質上更接近於傳感器的原始數據。

因此,其準確度必然會更高。

除此之外,在 BEV 空間層進行特征級融合,還具有多種好處,更是後續行業革新的方向:

跨攝像頭融合和多模融合更易實現。

大多數行業公司采用的是異構傳感器《攝像頭、激光雷達、毫米波雷達等》的感知方案。

而 BEV 空間能夠統一傳感器數據維度,更容易實現特征融合。

時序融合更易實現。

可「腦補」出遮擋區域的目標。

更方便端到端做優化。

得益於此,BEV 架構也成了國內自動駕駛公司延用的基本方向。

《3》數據從人工標註轉向自我標註

在自動駕駛圈,有一句名言:數據決定了算法的上限,模型隻是不停的逼近這個上限。

數據燃料在自動駕駛算法訓練中的地位可見一斑。

為了確保投喂給算法的數據正確而有益,過去自動駕駛行業往往都采取人工標註的方式。

特斯拉也不例外。

在 2018 年時,特斯拉選擇和第三方公司合作,但這樣的方式標註效率很低,並且溝通的成本很高。

為了實現標註效率和質量的提升,特斯拉自建了標註團隊,人員規模一度超過 1000 人。

2D 圖像的人工標註

但是,自建標註團隊也隨之帶來了新問題。

隨著自動駕駛數據的進一步擴大,所需的標註人員數量也在進一步增長,這意味著成本水漲船高。

鑒於高成本,低效率的屬性,人工標註自然地成為了特斯拉的「眼中刺」。

在 BEV+Transfomer 引入後,特斯拉的數據標註效率得到了一定提升。

在引入 BEV 空間層前,標註人員需要標記 8 張 2D 圖像,而在 BEV 空間層下,僅需要進行一次 3D 空間中的標註便可完成。

但是,由於人類標註員對於語義信息更擅長,而計算機對幾何,重建,三角化,跟蹤更加擅長。

這使得 BEV 下,數據標註是一種「半自動」狀態,需要人工和計算機進行協作。

同時,盡管標註的效率有所增加,但在數據的指數級增長下,仍舊捉襟見肘。

顯然,自動標註才是效率、效果、成本三方矛盾的最終破局方法。

為此,在 2020 年開始,特斯拉研發並使用了數據自動標註系統。

特斯拉數據標註的思路非常簡單:用更多的數據訓練更大的模型,再用「大模型」的數據訓練車端「小模型」。

在車輛行駛過程中,攝像頭收集的路面信息,打包上傳到服務器的離線神經網絡大模型,由大模型進行預測性標註,再反饋給車端各個傳感器。

由於傳感器視角不同,當預測的標註結果在 8 個傳感器均呈現一致時,則這一標註成功。

而這一過程,也即是車載模型對服務器的大模型進行自動標註系統的蒸餾。

同時,車輛也在充當特斯拉「眾包地圖」采集車的角色。

當不同的車輛走在同一段路時,離線大模型將記錄同一段路不同的標註結果。

當數據標註系統將不同車輛,不同時間,不同天氣狀況下的標註結果疊加後,得到了一個具備高度一致性的標註結果,這也意味著,特斯拉得到了自己的「高精地圖」。

05、2021 年-2022 年劍指端到端大模型

BEV+Transfomer 架構的引入,可以說是一場行業重構。

這一「黃金組合」在自動駕駛領域有著諸多優勢,是過去算法所不具備的。

但是,BEV+Transfomer 在推出之初,也並非完美無瑕。

隨著自動駕駛的進一步發展,面臨場景逐漸多樣化,coner case 越來越多,這便對自動駕駛算法的泛化能力提出了新的要求。

在隨後的兩年時間裡,為了讓算法更接近人類的思考方式,特斯拉對 BEV+Transformer 架構進行了改良。

其中,最主要的兩個改良是時序信息的增加和占用網絡的應用。

雖然 2020 年,特斯拉利用 BEV 解決了 2D 向 3D 轉換的空間問題,但卻仍未引入時序信息。

也即是說,在上一個版本中,BEV 仍然是對瞬時的圖像片段進行感知,缺乏時空記憶力,汽車隻能根據當前時刻感知到的信息進行判斷。

時序信息的缺席,讓自動駕駛潛藏了極大的安全風險。

例如在行車過程中,如果有行人正在穿過馬路,過程中被靜止的障礙物遮擋,如果汽車僅有瞬時感知能力,由於在感知時刻行人正好被汽車遮擋,則無法識別到行人,可能威脅駕乘人員和行人的安全。

人類司機在面對類似場景時,則會根據之前時刻看到行人在穿越馬路的記憶,能夠意識到行人被車輛遮擋,且有繼續穿越馬路的意圖,從而選擇減速或者剎車避讓。

如何給自動駕駛增加「記憶」功能便顯得尤為關鍵。

因此,自動駕駛感知網絡也需要擁有類似的記憶能力,能夠記住之前某一時間段的數據特征,從而推演目前場景下可能性最大的結果,而不僅僅是基於當前時刻看到的場景進行判斷。

為了解決這一問題,特斯拉感知網絡架構引入了時空序列特征層,使用視頻片段,而不是圖像來訓練神經網絡,為自動駕駛增添了短時記憶能力。

除了引入時序網絡外,在 2022 年,特斯拉對 BEV 進行了升級——引入占用網絡。

在過去,自動駕駛算法和人作比較,往往顯得呆板、過於機械。

在傳統的自動駕駛算法中,大多是依靠大數據喂養,得出「經驗」,然後識別物體,再進行決策。

也即是說,算法需要經歷,感知,辨識,決策,執行這樣的思考流程。

但在現實世界裡,真實的路況下,實際情況是錯綜復雜的,存在著大量的極端情況《corner case》,要讓算法認全所有事物,顯然不太現實,且效率不高。

以「二仙橋大爺」為例,若自動駕駛遇上了如此「超載」的車輛,算法將其識別為一般的三輪車,並判斷路況,但對車後拖載的貨物,既不顯示,也不識別。

當自動駕駛的車輛進行超車變道時,就容易發生剮蹭等事故,潛藏一定風險。

為了解決這類問題,特斯拉將 BEV 升級到了占用網絡《occupancy network》。

在 2D 圖像世界中,一個物體由無數個像素點組成。

而在占用網絡之下,3D 的真實世界則是由無數個微小立方體——體素堆疊組成。

占用網絡,將原本的 BEV 空間,分割成無數的體素,再通過預測每個體素是是否被占用。

簡單來說,不考慮這個物體到底是什麼,隻考慮體素是否被占用。

這使得非典型但卻存在的事物能夠直接表示出來,增加了算法的泛化能力和對現實世界的認知。

實際上,占用網絡的體素,充當了激光雷達點陣的作用。

而占用網絡最直接的效果便是實現了「偽激光雷達」的效果。

時序信息的增加,升級占用網絡,使得特斯拉自動駕駛算法的泛化能力得到了提升。

而借助於算法提升,特斯拉 FSD 更能刻畫真實的物理世界,進而才有可能實現端到端模型。

06、未來,自動駕駛將走向何方

在自動駕駛領域,特斯拉毫無疑問是領頭羊。

在確定純視覺路線後,特斯拉在自動駕駛算法上進行了四次迭代更新。

除了第一次是為追趕行業發展以外,其餘更新均引領行業的發展。

特斯拉能夠走在行業前列,除了優秀的團隊以外,更在於整體的思路設計秉持「第一性原理思維」。

所謂的「第一性原理思維」,即一種刨根問底、追究最原始假設和最根本性規律的思維習慣。

「物理學教會你根據第一性原理做出推理,而不是通過類比進行推理。

類比式推理就是幾乎絲毫不差地模仿或模擬他人。

」馬斯克曾如此說到。

在特斯拉自動駕駛迭代思維上,第一性原理思維滲透在了方方面面:

計算效率不高,HEAD 部分不夠用?開發了九頭蛇網絡結構;

小模型無法實行並行計算,泛化能力不強,BEV 無法精確實現?引入大模型 Transfomer,逆向開發;

現有芯片的構成冗餘,不適配純視覺路線需求,且成本高?自研 FSD 芯片;

數據標註成本高,數據訓練量不足?建設超算中心 DOJO,實現數據自我標註,同時虛擬場景訓練算法,提高自動駕駛能力等等。

在錨定純視覺路線後,特斯拉均在算法迭代中,針對各種問題,發現短板,並加以解決。

而這,正是特斯拉執牛耳的關鍵。

同時,鑒於特斯拉的行業領導地位,研究其自動駕駛算法迭代歷程後,也能讓外界窺見自動駕駛行業的未來。

《1》「輕地圖,重感知成行業主流方向

在過去,自動駕駛行業,往往采取高精地圖方案,輔助實現自動駕駛。

高精地圖能夠提供超視距、厘米級相對定位及導航信息,在數據和算法尚未成熟到脫圖之前,能夠成為整機廠的「拐杖」,幫助自動駕駛的落地。

但是,和其優點一樣,高精地圖的缺點也非常明顯:

需要圖商采集更新,無法實時更新;

制圖資質受到嚴格管理,信息采集面臨一定法規風險;

成本昂貴高昂。

在這樣的情況下,特斯拉構建了自己的「高精地圖」。

通過 BEV 空間層,特斯拉將不同視角的攝像頭采集到 2D 圖像統一轉換到 BEV 視角,車輛形成自車坐標系。

同時,引入服務器的離線神經網絡,實現數據自動標註,確保標註效果,且在無數「眾包采集車」的幫助下,疊加標註結果,得出道路信息標註的「唯一解」。

BEV、Transfomer、引入時序信息、數據自動標註等等,一系列技術加持之下,特斯拉才得以實現「無圖」。

國內市場,「輕地圖,重感知」也成為了行業發展的主流方向。

2022 年 4 月,毫末智行提出要做「重感知、輕地圖」的城市智能駕駛,開始降低方案中高精地圖的權重,乃至做到無需高精地圖;

2022 年年底,小鵬發佈了第二代智能輔助駕駛系統 XNGP,並對外宣佈將擺脫高精地圖限制;

2022 年下半年,華為餘承東表示:

「自動駕駛未來不應過分依賴於高精地圖、車路協同。

今年 5 月,蔚來發佈了 Banyan 2.0.0 系統,完成了向 BEV 感知路線的切換;

國內一眾廠商深受特斯拉路線影響,延用 BEV 架構,開始對高精地圖動刀,「重感知,輕地圖」路線成為了市場主流發展方向。

特斯拉的 BEV+Transformer 方案為行業的「脫圖」提供了技術上的可行性。

從特斯拉路線經驗來看,如果要以純算法,實現擺「脫圖」,或許需要車企同時具備以下兩個條件:

引入 BEV 架構,實現異構傳感器的融合,生成活地圖;

具備超算中心,或離線服務器的大模型,能夠實現自動標註及仿真訓練;

目前,「輕地圖」路線大多仍是通過軟硬件結合的方式,降低高精地圖需求,本質上仍然是「多傳感器+高精地圖」路線。

從行業發展趨勢來看,國內車企也在向「雲端大模型+BEV」的路線靠攏,以期實現「脫圖」。

6 月 17 日,在理想汽車家庭科技日上,理想副總裁兼自動駕駛負責人郎咸朋便對外公佈了理想汽車的 NPN 網絡。

郎咸朋介紹稱,在車輛行經一段路時,NPN 網絡將道路信息特征進行提取後,存儲於雲端。

而當車輛再次行駛到該路口時,再將儲存的道路特征拿出來,與車端模型進行特征層融合,以此解決道路信息的遮擋問題。

當 NPN 網絡對同一路段堆疊大量標註結果後,最終便達到了「高精地圖」的效果。

理想汽車的「NPN 網絡+BEV」實際上延用的就是特斯拉的「離線大模型+BEV」的技術路線。

《2》 升級到占用網絡,實現去激光雷達

在 2022 年的 AI day 上,特斯拉將 BEV 升級到了占用網絡。

占用網絡顯著的特點是,拋棄了過去算法需要先識別、判斷物體,再進行決策的思路。

在面對訓練中沒有出現過的物體時,如側翻的白色大卡車,垃圾桶出現在路中央,傳統視覺算法是無法檢測的。

而占用網絡,則用體素的概念,僅僅是判斷該空間有沒有物體,而不去深究物體是什麼。

這大幅提升了模型的泛化能力,有助於城市 NOA 的實現。

從特斯拉 AI Day 演示效果來看,特斯拉通過鳥瞰圖、占用檢測和體素分類使純視覺方案已經達到「偽激光雷達」效果。

值得注意的是,在特斯拉發佈的最新硬件 HW4.0 中,預留了 4D 毫米波雷達接口

這預示著特斯拉或將重啟毫米波雷達,以彌補純視覺算法在高程信息感知上的不足。

從成本來看,公開報道顯示,4D 毫米波雷達價格僅約為高線束激光雷達的 1/10。

《3》AI 大模型卷入自動駕駛,超算中心成標配

今年 5 月,馬斯克發推文稱,FSD11.透露稱,FSD V12 版本將完全實現端到端。

什麼是端到端?

目前,自動駕駛模型架構將駕駛目標分為感知、規劃、控制三大模塊。

但是,這和人類駕駛行為有著根本的不同。

人類司機在看到視覺信息後,不會對所看到的物體進行數據分析,而是基於經驗,在「黑盒」狀態下完成駕駛決策,並協調手、腳執行任務。

而端到端模型更為貼近人的駕駛決策行為。

攝像頭采集到外界的視頻數據後,算法直接輸出的是方向盤轉角多少度的控制決策,不存在單獨的「圖像識別檢測」任務。

端到端模型的決策在「黑盒」狀態下進行,通過賦予數據,使算法積攢「經驗」,使得其決策和執行同步進行。

在理想狀態下,「黑盒」狀態下的端到端大模型實際比基於規則設定的傳統小模型更為安全。

比起傳統的設定規則,參數對算法結構進行「補丁」式矯正,只要投喂的正確案例足夠多,那麼 AI 大模型模型所需要的時間必然小於傳統規則。

而經過足夠的數據和案例的投喂,端到端模型的泛化能力也必然強於傳統的自動駕駛算法。

為了使得大模型落地,海量的數據投喂成了廠商必然選擇。

毫末智行 CEO 顧維灝就曾公開表示,要使由數據驅動的 Transformer 大模型量變引起質變需要 1 億公裡的裡程數據。

這一海量數據顯然無法單獨依靠某個廠家通過銷售車輛完成。

在這樣的情況下,超算中心便成了 AI 大模型落地的標配。

超算中心對大模型的助力主要體現在數據標註和仿真訓練上。

特斯拉 2022 年發佈的超算中心 Dojo 便是如此。

特斯拉 Dojo 的功能,能夠利用海量的視頻數據,做「無人監管」的標註和仿真訓練。

特斯拉打樣在前,國內不少廠商也緊隨其後。

在 2022 年以後,超算中心開始活躍在自動駕駛領域。

2022 年 8 月,基於阿裡雲智能計算平臺,小鵬推出了扶搖超算中心,每秒浮點運算達 60 億次,專用於自動駕駛模擬訓練。

同時,小鵬還推出了全自動標註系統,將標註效率提升近 4.5 萬倍,以前 2000 人一年的標註量,現在 16.7 天可以完成。

今年 1 月,毫末智行和火山引擎聯合打造了 MANA OASIS 智算中心,用於自動標註及仿真訓練。

據悉,MANA OASIS 智算中心,每秒浮點運算達 67 億次,存儲帶寬每秒 2T,通信帶寬每秒 800G。

除了小鵬和毫末以外,跟隨特斯拉步伐,國內車企設立的超算中心還有:吉利設立了星瑞智算中心;智己汽車的雲上數據超級工廠等。

可以說,在自動駕駛領域,特斯拉引領著行業的發展方向。

自 2020 年以來,特斯拉率先使用了 BEV、Transfomer 架構、離線網絡大模型,隨後,國內眾多車企才開始紛紛跟進。

而近一段時間,「FSD 入華」的話題時常引發市場討論。

在熱議的背後,有觀點認為,FSD 將是那條引起自動駕駛行業優勝劣汰的鯰魚。

言外之意滿是對行業賽道參與者的擔憂。

這倒也不用過分憂慮。

正如前文所言,特斯拉也並非一開始就是「江湖第一」。

在經歷「被分手」後,特斯拉自動駕駛算法經歷了落後,到追趕,再到引領的不同時期,更多是帶有逆襲成分。

而逆襲的關鍵點在於:選好目標,敢於「一條道走到黑」。

在過去一段時間裡,市場對於特斯拉的純視覺方案並不看好。

不少業內觀點認為,激光雷達是安全件,純視覺方案的自動駕駛並不具備可行性。

但在確定純視覺路線以後,針對純視覺方案的各種問題,特斯拉從第一性原理出發,思考確切問題的根本,並提出解決方式。

最終的結果是,特斯拉成為自動駕駛領頭羊。

目前,自動駕駛也並未到決賽階段。

對於國內這一賽道的參與者,市場要有足夠信心。

畢竟,特斯拉 FSD 仍未入華,而賽道參與者的較量仍未真正開始。