今年11月2日,工信部會同公安部就智能網聯汽車準入及上路試點組織起草了征求意見稿;11月21日,北京正式頒發自動駕駛無人化第二階段測試許可,車內「前排無人,後排有人」的場景照向現實。
隨著相關政策的密集出臺,自動駕駛也在愈加規范的同時,不斷提速商業化進程。
目前,北京、重慶、武漢、深圳、廣州、長沙等地已有無人化商業運營試點在對外提供服務,並有不少智能汽車品牌把高速公路場景,甚至城市場景下領航輔助駕駛功能產品收入囊中。
業內許多人士認為,自動駕駛在高速發展下,正在從技術驅動轉向數據驅動時代。
的確,無論走哪種技術路線,車企更多需要通過真實數據來驅動真正的自動駕駛體驗。
數據貫穿自動駕駛的研發、測試、量產、運維、售後等全生命周期,企業也需要利用從研發到使用全過程產生的數據,來不斷提升、迭代自動駕駛系統。
那麼,目前自動駕駛最迫切的數據應用場景是什麼?這樣的場景又對算力、工具、平臺有哪些需求?應用過程中,面對隨之而來的海量任務,如何能夠提升數據管理效能,並保障數據的安全與合規性?車企要不要上雲?該如何上雲?
為此,12月15日,在金橋經濟技術開發區管委會的推動下,阿裡雲聯合機器之心共同舉辦「自動駕駛的數智化未來」閉門研討會,邀請眾多專家學者、產業界精英和政府相關部門代表到場跨界交流,並一齊探索了這些問題的答案。
自動駕駛需要上雲嗎?
從軟件算法到硬件設備,自動駕駛領域天生就會產生很多數據。
一輛符合或者具備自動駕駛的車有攝像頭、雷達、定位系統等各種各樣的感知設備,這些感知設備運行24小時,大概會采集4個TB的數據,阿裡雲智能副總裁、行業解決方案研發部負責人曾震宇指出。
「當然,一輛車不可能24小時都在開,假設100萬輛車一天在路上跑3個小時,總數據量就是128EB,而通常一家互聯網公司的數據量在幾個EB。
128EB對於任何一家做自動駕駛的公司,都是一個非常海量的數據量級別,即使對這些數據量做1%到1‰的采樣,算下來也差不多是EB級別的。
」
而且,自動駕駛公司以往是針對感知算法做許多小模型,未來或會朝大模型方向發展,大模型對數據量的消耗以及數據的需求會越來越大。
再從看戲規劃控制和決策方面,自動駕駛公司以往更多是從規則或決策的角度來做規控,未來不僅是規則+決策還要加上強化學習,這對數據量的需求又非常大。
將海量的數據保存下來之後,又會有非常多的計算場景,其中有許多場景都需要用雲計算來幫助做加工處理。
例如,面對超大的非結構化數據的預處理,如何快速加大並發、加快數據的處理能力?超大規模的網絡參數非常多,怎麼快速地並行化訓練感知模型算法?在百億級的向量多模態檢索環節,如何從海量數據中快速挑選出有價值的數據?算法上線前做仿真測試時,如何提升仿真的並發度和計算效率?
由此可見,在自動駕駛商業落地下半場中,數據「上雲」是自動駕駛行業的一大剛需,也是決定其能否實現快速迭代的重要因素。
「上雲」之路有哪些?
不過,在具體「上雲」方式上,自動駕駛行業各公司的選擇並不單一。
一部分公司選擇自建超算中心,如特斯拉和小鵬。
2021年8月,特斯拉正式發佈自研雲端超算中心Dojo,主要用於處理大量訓練特斯拉自動駕駛汽車AI軟件數據;2022年8月2日,基於阿裡雲智能計算平臺,小鵬汽車在烏蘭察佈建成國內最大的自動駕駛智算中心「扶搖」,專用於自動駕駛模型訓練。
還有自動駕駛企業選擇在雲平臺靈活部署自己的技術,比如Nullmax利用貫通車端、雲端的自研數據成長系統推動自動駕駛不斷迭代升級。
Nullmax創始人兼CEO徐雷表示,自動駕駛是場景驅動的設計來實現包括測試和商業化應用的過程,當中必然會產生很多數據。
而各種雲的服務是一個基礎服務,他們正是在這些服務上對采集和收集的數據做分類切片、標註和挖掘工作。
這樣一來,車端源源不斷地獲取數據,雲端對數據進行分析,可以完成獲取、清洗、標註、訓練以及模型驗證的整個數據閉環,為感知、融合、決策、定位、測試等環節提供全方位的幫助。
《Nullmax 創始人兼CEO徐雷》
這是行業內典型的兩種「上雲」之路。
對於大部分企業而言,是否自建雲服務平臺仍值得商榷。
畢竟,自建雲計算基礎設施不僅需要巨大的前期投入,後續成果能否盡如人意也是個未知數。
因此,選擇一家有實力的第三方雲計算企業,成為大多數車企的最佳選擇。
多雲VS單雲
如今自動駕駛企業在選擇雲服務時,往往會選擇多家,如阿裡雲、騰訊雲、華為雲等都采購,避免與一家「綁定」。
但實際上從效率角度考慮,選擇單獨一家,使用一站式/全棧式的服務是最為高效的。
對此,輕舟智航技術合夥人李棟解釋道,他們主要是出於兩方面的考慮:第一是成本,希望能得到最高性價比的服務;第二是想靈活適配各雲服務商,其策略是采用更基礎、接口更統一的服務,並且盡量壓低在不同服務之間切換的成本。
《輕舟智航技術合夥人李棟》
此前,業內也流傳著這樣一種說法:「自動駕駛企業上交了數據就相當於交出靈魂」。
確實,雲供應商如此深層次地介入到自動駕駛研發業務中,在一定數據量的積累後,自動駕駛企業是會產生一定的顧慮。
阿裡雲行業解決方案研發部自動駕駛雲產品負責人孫放表示,對於這一現象,阿裡雲有三個態度:
第一,阿裡雲並不幹涉客戶選多雲;第二,阿裡雲不做車端相關的技術,整套服務體系都不會綁定車端的客戶選型,不管是阿裡雲提供工具還是原子能力都可以適配客戶任意車端體系使用;第三,阿裡雲提供多層次可以拆分售賣的自動駕駛雲方案,擁有多模態數據檢索、仿真軟件大規模調度等許多原始能力。
如果客戶自研SaaS,可以直接用原子能力,然後根據自己的需要選擇合適的上層工具或者是自研上層工具;阿裡雲也可以聯合合作夥伴提供上層端到端的SaaS層開發工具產品。
「目前,大部分主機廠或造車新勢力客戶會選擇把某一個業務類型《如仿真、訓練》放在一種雲上,而Tier1供應商會根據他們自己的客戶的需求選擇雲服務,通常不和某一個雲綁定。
對此,阿裡雲整體是一個完全開放的態度。
我們更多從技術層面幫客戶考慮,如多雲之間存算力怎麼分配、跨雲數據同步對帶寬依賴、成本和網絡延遲是否會產生影響等。
」孫放稱。
達摩院自動駕駛實驗室則認為,從效率或者迭代更高角度來講,更深度的垂直整合往往會帶來更高效率和更低成本。
這是他們在與阿裡雲更深度結合綁定的過程中所實踐到的。
而對於自動駕駛企業所顧慮的方面,達摩院自動駕駛實驗室的看法是,選擇多元方案涉及到雲與雲之間包括網絡傳輸和數據互通,協同成本很高,在不同企業發展階段這種付出是可以權衡的。
例如,在快速迭代階段,可與單一雲廠商深度綁定;進入規模化發展階段,再考慮多雲間平衡的技術方案。
自動駕駛的數據應用難點
自動駕駛企業對雲端研發自動駕駛、對於感知模型訓練、仿真測試、研發工具鏈等的需求越來越旺,礦山、城區和高速道路等都是其目前相對迫切的數據應用場景,但過程中也面臨許多難點。
伯鐳科技自動駕駛產品解決方案負責人趙新寰介紹,礦山相對公開道路不太一樣,沒有交通燈、斑馬線等交通信號,也沒有行人場景,需要標註的數據也不一樣,如道路、擋墻以及不同大小和形態的落石。
由於單車數據標志量雖不很大,但往往比較特別,他們選擇找專業的數據標註公司來提供服務,但成本較貴、時間周期較長。
而且,他指出,礦山場景中做數據采集,要考慮車輛的形態、能耗,還要保證無人駕駛和有人駕駛車輛的混編,包括道路共享、匯車、錯車等,整體數據量非常巨大。
從仿真角度來說,對數據的處理難度以及算力的要求都比較高。
上海數字大腦研究院執行CEO、CMC Capital VP劉海濤則結合此前的項目經歷,談到礦山數據應用場景的另一棘手情況:做數據標註時存在降噪問題。
當大型礦卡行至顛簸道路,會在啟停時晃得很厲害,有時候傳感器突然打到地面,會誤認為地面是障礙物,或者在攝像頭結霜時就看不到了。
《上海數字大腦研究院執行CEO、CMC Capital VP劉海濤》
專註於做車路協同自動駕駛的中智行技術副總裁劉生認為,無人駕駛看的是安全、效率和體感,其中最難的是安全性,它的數據難點有以下三點:首先,現實世界中發生的案例大多都是典型的,但安全性場景極其罕見;其次,自動駕駛未來的目標不是做到絕對安全,隻需要做到比人更好就可以,但評估起來是非常難的;最後是數據理解方面的難題,構建安全性場景非常難,需要保真度和安全性的評估指標。
對此,目前業界有三種解法。
一是影子模式,用人開的方式和自動駕駛差異性找到罕見事件作為安全性評估;二是機器學習方法從普通場景推導安全性的案例,這裡面需要解決認知和邏輯性問題;三是減少安全性的場景,從而使安全關鍵事件的發生概率被人們接受。
比如可以借助於第三方力量《如路端》,有助於克服機載傳感器的局限性。
這種方式的挑戰在於如何提升PnC的泛化能力。
「但不管用哪種解法,技術挑戰和投入成本都是非常大的。
」劉生指出,中智行另辟蹊徑,用車路協同來實現低成本高效率數據采集。
中智行聯合天翼交通發佈的『輕車·熟路』車路協同系統具備全時空的觀測,場景覆蓋率可以達到100%,能夠完美解決安全維度最難的稀缺性。
另外一方面,無人駕駛是生態型的,不可能一家公司從頭做到尾,在數據處理方面也同樣需要上下遊合作。
無人駕駛的數據處理分為數據工具和數據理解兩部分,而他們非常願意把數據工具體系交給平臺方去做,更多去關注數據的理解。
《中智行技術副總裁劉生》
比如,阿裡雲就提供了一系列工具,能夠幫助業務方把有價值的數據量提取出來。
劉生介紹,有了高質量的數據,友商也能提供強大的平臺幫他們做數據處理,接下來中智行還進一步利用路側數據做了規控優化、感知泛化以及更新高精地圖等工作。
基於路側數據優化自動駕駛的規控方面,阿裡雲也做了不少相關的實踐。
目前,阿裡雲提供針對城市和高速道路等的自動駕駛仿真場景庫,主要面向規控仿真。
2022年9月27日,阿裡雲聯合毫末智行在德清市發佈「中國首個基於車路協同雲服務的大規模自動駕駛場景庫」。
《毫末智行COO侯軍》
此外,毫末智行COO侯軍談到,隨著自動駕駛大規模商業化落地的提速, 數據智能成為自動駕駛能力高速迭代的核心,而更加開放的生態也讓企業贏得未來。
毫末選擇與生態夥伴一起合作,將海量數據雲上進行高效訓練,以提升數據處理能力,降低訓練成本。
還有場景落地可行性問題…
除面臨海量的、不同類型的數據應用難題外,自動駕駛企業還要注意收集及處理數據時的效能和合法合規性。
今年11月23日,上海市通過了以浦東新區為試點,促進無駕駛人智能網聯汽車的新規,為完全無人駕駛汽車在上海的落地提供了制度依據。
上海金橋智能網聯汽車發展有限公司高級經理周軼表示,政府在做好監管職責之後,另一方面也在思考:面對示范區車輛監管和車路協同建設沉淀的海量數據,作為第三方機構如何在保障安全和隱私的前提下,引導產業鏈上的參與者,建立一套行之有效的行業協作機制,背靠浦東豐富的城市社區場景和海量的出行服務需求,以數據管理和應用為導向,形成一個可持續、可管理、可閉環的數據生態。
從根源上來講,這並不完全是技術層面的問題,更多是面向應用場景的落地可行性問題。
金橋智聯的建議是建立適應浦東應用場景特色的智能網聯車數據安全與數據管理標準體系,除了技術上的考慮,一定要瞄準浦東的創新應用場景的數據管理和應用需求。
「未來浦東一定是國內最大規模的自動駕駛無人出租、無人公交、無人配送、無人泊車等應用場景的商業化落地區域,這個過程中數據在業務上如何保障信息安全和隱私,技術上如何防止篡改和盜用,乃至金融上如何確保用戶和企業資金流轉的安全和存證,這都需要建立一套面向場景應用的數據安全與管理標準。
以此為基礎,保障不同應用場景擁有可靠同源的安全架構,才能真正推動自動駕駛商業運營的大規模推廣落地。
」
數據在驅動自動駕駛高速發展的同時,也帶來許多挑戰。
為應對海量的數據以及龐雜的處理任務,自動駕駛企業需要建立起強大的數據存儲與智能計算能力,而能夠提供這些支持的正是雲服務。
需要注意的是,隨著技術應用的迭代和業務場景的變化,現如今自動駕駛企業對雲服務商提出了更多的需求,其中「從垂直場景切入深度解決數據應用難點,切實提升數據管理效能」就是關鍵點之一。
在此情況下,雲服務商需要與自動駕駛公司加強溝通、對齊需求;後者也需要再多加思考選擇雲服務的方案和策略:如何在免除「被綁定」顧慮的同時,還能發揮出更高的效率、以及更低的成本,並以此加速自動駕駛的商業化進程?