自動駕駛數據閉環,2023智駕量產新戰場。

自動駕駛數據閉環,2023智駕量產新戰場。

隨著近兩年技術快速迭代、用戶教育越來越成熟,自動駕駛發展的重心已從技術研發的比拼來到商業化落地的競爭。

城市內日常場景下的智能駕駛體驗越發受到關注,自2022年起,頭部車企紛紛宣佈城市場景NOA《Navigate on Autopilot,自動輔助導航駕駛》的量產落地計劃。

億歐智庫預測,2025年中國城市NOA前裝市場規模將達到76億元。

實現城市場景NOA是自動駕駛商業化向前邁出的巨大一步。

具體來講,自動駕駛能力的實現需要高效的算力、完善的算法模型以及大量有效的數據

過往智駕的發展重點由技術驅動,各類玩家仍處在備賽的基本階段,不斷增強技術實力,在實驗室裡打磨做題技巧;技術逐步成熟的同時,收集更多數據成為突破研發瓶頸的關鍵,測試車隊逐步壯大,智駕玩家在模擬小考中以賽代練。

2023年,中國新能源汽車的競爭賽進入淘汰階段,智駕玩家卯足了勁,應付普通道路已經不足為奇,雨雪天氣、鬧市街頭,誰能應對更多偏題怪題,誰就能贏得更多消費者的心。

積累數據越發重要的同時,數據流通各環節也逐步連結,無論是技術上的拓展,還是產業內的協同,自動駕駛數據閉環逐步形成。

面對數以PB、EB計的車端數據,如何施以有效收集、有效利用、合規管理,智駕做題家們紛紛打造各具優勢的數據閉環,以巧勁突破無窮題海。

自動駕駛數據閉環:飛輪到底怎麼轉?

商業模式健康運營的關鍵,在於搭建完備、自主的飛輪,數據閉環便是自動駕駛量產落地的核心飛輪。

由於自動駕駛所需的場景數據屬於長尾數據,需要盡可能多地涵蓋corner case,算法模型的升級迭代也需要新場景數據的不斷投喂,數據的重要性日益凸顯,從主機廠到Tier 1,自動駕駛產業上下遊各玩家都將目光投向了自動駕駛數據閉環的打造。

依據全國信息安全標準化技術委員會發佈的《汽車采集數據處理安全指南》,汽車采集數據指通過汽車傳感設備、控制單元采集的數據,以及對其進行加工後產生的數據,主要包括車外數據、座艙數據、運行數據以及位置軌跡數據。

汽車采集數據經過標註、清洗、篩選等處理,形成有效數據集,進一步存儲在雲端服務器中,之後傳輸至算法模型,經過訓練後部署到車端進行應用驗證,形成一套由數據驅動算法迭代、進而驅動自動駕駛能力升級的閉環模型。

基於平臺優勢與技術積累,業內主要有數據平臺企業、芯片廠商、雲服務供應商、自動駕駛Tier 1在構建自動駕駛數據閉環模型,也出現了一批以科技優勢入局的數據閉環方案提供商,另外有少許主機廠完成了閉環。


特斯拉:影子模式助力數據引擎,本土化仍有待時日

自動駕駛圈的明星企業特斯拉,據傳即將面向中國市場開放FSD《Full Self Drive,完全自動駕駛》功能。

這一傳聞無異於又一條『鮎魚』,進一步催動了國內自動駕駛市場。

在此之前,特斯拉已經建立起一套成體系的數據處理方式,並且在量產車上應用,這一點相比其他車企有明顯優勢。

眾所周知,自動駕駛路測數據可以從測試車和量產車兩種渠道收集,特斯拉以年交付超百萬輛的巨大體量,相比測試車能夠更快、更多地收集路面交通狀況、駕駛操作場景等等數據。

但反過來講,也對數據處理的效率和能力提出了更高的考驗。

純視覺的技術路線又進一步提高了對數據的精度與鮮度的要求。

其中,數據引擎作為處理數據的平臺,通過對數據的標註、訓練、部署、采集、評估等,將AI技術應用於自動駕駛中。

『影子模式《shadow mode》』協助采集更加真實、豐富的數據,從源頭處為這一引擎的運轉提供了豐沛的燃料。

顧名思義,影子模式在車輛駕駛過程中如影隨形,作為一種測試機制,在不影響車輛實際操作的情況下,對真實場景中的車輛操控與運行進行模擬測試,將模擬運行結果對真實場景下的運行結果進行對比分析,從二者的不一致當中重點關注corner case數據,通過清洗與標註,與其他真實或仿真的數據結合構成數據集,繼而訓練算法模型,並將訓練後的數據部署至車輛,完成自動駕駛系統的循環驗證與迭代升級。

影子模式極大地利用了特斯拉量產車輛的規模優勢,高效地收集了大量真實、有效的駕駛數據,同時免去了自建測試車隊、雇傭工程師運營及管理測試車隊以及對於數據處理和泛化的迂回,數據有效性極大增強的同時,也降低了維護與運營數據閉環的成本。

每一輛特斯拉汽車的價值,不僅在於銷售利潤,同時還在於免費、持續的數據收集。

根據業內人士分析,特斯拉預估已收集超過30億英裡的數據,這些數據源源不斷地喂養著算法模型,以更短的數據通路積累更多駕駛場景,推動實現自動駕駛能力的迭代。

除了大規模收集自動駕駛真值數據,特斯拉還進行了極端仿真場景建設、數據標註自動化等多個節點的優化,在控制成本的同時,推動自動駕駛數據閉環高效、自動運轉。

盡管如此,相較國外交通狀況,中國道路交通的長度與復雜度都成倍增長,即使特斯拉FSD入華,也仍然需要相當一段時間來收集本土數據,融合中國的道路交通法規,訓練『中國特色』的數據閉環。

而這一過程,正是留給中國本土玩家的至關重要的窗口期。

毫末智行:構建關系曲線,大模型加速閉環運轉

脫胎於長城汽車的自動駕駛解決方案供應商毫末智行,距離車端數據的收集與落地本就更近一步,在成立初期便對數據驅動行業發展有所關注。

毫末基於數據規模與自動駕駛產品能力之間的關系,建立了二者之間的相關性曲線,同時打造了毫末模式下的數據閉環方案。

無獨有偶,毫末智行與特斯拉同樣采用Transformer大模型對算法模型進行訓練,使算法模型具備擬人化思維,輸出更加『老司機』的駕駛操作與規控策略,結合仿真系統中的驗證,將訓練結果部署於常規場景,逐步實現對各類corner case場景的擬合。

但與之不同的是,毫末智行采取了自監督學習的方式搭配增量式學習訓練平臺,提高數據訓練的效率與精度。

自監督學習引入後,提前於感知系統將未標註的數據進行場景構建,學習其中的通用底層特征,提高了後續數據檢索、匹配、篩選的效率。

增量式學習訓練平臺的搭建,在限定數據規模的前提下,對新獲取的數據預先篩選,與部分原有數據進行耦合,在控制數據規模不會過大到影響處理效率的同時,又保證了新數據的鮮度與價值。

據了解,采用增量學習平臺後,整體算力節省80%,響應速度提升了6倍,對於瞬息萬變的自動駕駛場景來講,這樣的速度增長對毫末自動駕駛數據閉環的助力是不言而喻的。

2023年4月,在第八屆毫末AI Day上,毫末創始人顧維灝發佈首個應用GPT模型和技術邏輯的自動駕駛算法模型DriveGPT,中文名雪湖·海若。

DriveGPT的上車,建立初始模型和反饋模型進行相互訓練,不僅能夠做到智能捷徑推薦、困難場景自主脫困等功能,還能就同一目標給出多種方案供系統決策,結合4000萬公裡的數據裡程,毫末的MANA數據智能體系為智能駕駛產品的開發提供越來越趨近於『老司機』的能力。

毫末智行董事長張凱對於數據閉環也表示出重視和信心:『2023年智駕產品進入全線爆發期,毫末不斷進步的數據驅動的六大閉環能力將近一步加速毫末進入自動駕駛3.0時代的步伐並形成相應的護城河』

百度Apollo:甲級圖商資質保障合規,工具鏈解耦服務下遊

數據閉環的運轉除了追求高效,同樣還需要追求安全,而數據采集作為整個流程的第一環,采集方式和采集來源的合法合規尤為重要。

受到法律法規以及成本方面的約束,行業內近來紛紛轉向『輕高精地圖』、『無高精地圖』的發展路徑,但自動駕駛的技術迭代仍然離不開地圖數據的輔助。

依據相關文件,自動駕駛地圖屬於導航電子地圖的新型種類,持有導航電子地圖制作甲級測繪資質的公司才可以進行相關地理數據的大規模收集與處理。

截至2022年9月,目前全國僅有19家左右的企業具備甲級資質,主要集中在官方測繪單位、圖商、主機廠以及自動駕駛服務供應商。

百度作為甲級圖商的一員,提出了更註重合規安全的數據閉環解決方案。

依托自身的甲級測繪資質以及自建的采集車隊,百度為下遊車企提供的道路數據采集服務既增強了安全保障,又降低了運營成本。

秉持『原始數據不出車、測繪數據不出雲、測繪成果不關聯、資質圖商全管控』的合規思路,百度對車輛采集數據采取觸發式采集,並在圖商監管下的智能汽車數據專有雲中進行存儲、脫敏、審核、訓練,不僅搭建起服務於自動駕駛能力的數據閉環,同時形成了保障數據合規的閉環模式。

百度作為科技公司入局汽車行業,一向采取『可零可整』的友好合作姿態。

除了為主機廠提供整體合作方案,百度將智駕數據管理平臺、智能標註平臺、智駕研發平臺、雲仿真平臺整合打包為自動駕駛工具鏈平臺,靈活滿足主機廠需求。

除此之外,幾乎每家自動駕駛解決方案供應商都打造出了獨家的數據閉環解決方案,在數據采集邏輯、數據真值篩選、訓練場景仿真、算法模型迭代等每個環節都用盡全力,努力實現低成本、大規模、高質量、高效率的數據閉環。


數據閉環隱憂:安全合規、隱私保護是永遠的紅線

可以看出,產業內遍地開花,自動駕駛數據閉環的原理與模型也已經不是掌握在少數人手裡的行業機密,數據對自動駕駛產業的驅動力已經成為每一位玩家繞不開的關鍵。

看似順滑的運轉實際上也有很多斷層需要連接,數據確權就是業內一直懸而未決的話題。

相較於傳統的駕駛方式,自動駕駛的責任主體更加多元化,過往也有多起案例表現出責任追究的模糊性,盡管法律法規正在逐步完善,但目前仍是在一定原則指引下的『一事一議』,尚無明確定論。

同樣地,自動駕駛的數據所有權也處於『人人所有』卻又『無人所有』的灰色地帶中。

除此以外,數據脫敏、加密、傳輸、處理尚未形成密不透風的安全網,仍然有許多隱私保護與合法合規的孔洞有待業內玩家填補。

2022年發佈的《汽車數據安全管理若幹規定《試行》》提出,在汽車數據處理活動中,堅持『車內處理』、『默認不收集』、『精度范圍適用』、『脫敏處理』等數據處理原則,為自動駕駛數據的管理收緊了準繩。

結語:

完備的閉環模型需要大規模、高質量、多場景的數據高算力、高效率、相對低成本的算法模型趨向自動化的數據標註與處理水平高速率、低成本的傳輸速率與存儲模式,再加上安全合規的保駕護航,在新數據的喂養下飛輪不斷循環向前,實現自動駕駛的自動化成長。

這場數據的題海之戰在所難免,僅靠蠻力和耐力很難在爭分奪秒的汽車產業淘汰賽中存活。

想要在大考中拔得頭籌,不僅需要多做題,更要會做題。

考驗智駕做題家們的,依然是算力、算法以及更多商業運營能力的水平。

但獨木不成林是永恒的真理。

億歐汽車認為,不同企業各自的肌肉秀隻是發展初期的跑馬圈地,打造自動化、高效率的自動駕駛數據閉環絕非一己之力可為之。

數據閉環的每一步推進都是成本和效率的博弈,每一次博弈都是科技理性與價值理性的融合,每一場融合也將必然需要上下遊企業數據共享、技術開源、生態共建。

縱觀自動駕駛的發展,2023年將是技術革命與商業量產的分水嶺,數據閉環驅動商業閉環將成為行業共識。

未來,自動駕駛數據閉環方案將成為中國新能源汽車發展的標配,而孰優孰劣,市場銷量將給出最終的評判。