新智元報道
編輯:編輯部
【新智元導讀】CVPR 2023正式公佈最佳論文等重磅獎項。
來自上海人工智能實驗室、武漢大學、商湯科技團隊聯合發表論文Planning-oriented Autonomous Driving《以路徑規劃為導向的自動駕駛》實現自動駕駛技術的重要突破,獲CVPR最佳論文。
一年一度的CVPR是計算機視覺領域的頂級會議。
2023年,CVPR大會的論文投稿總量達9155篇。
其中,商湯科技及聯合實驗室共有54篇論文被CVPR 2023接收,包含一篇最佳論文、一篇最佳論文候選,以及七篇Highlight論文。
在近萬篇論文中,上海人工智能實驗室、武漢大學、商湯科技聯合團隊研究成果Planning-oriented Autonomous Driving《以路徑規劃為導向的自動駕駛》最終脫穎而出,斬獲CVPR 2023最佳論文獎《Best Paper Award》。
這是CVPR歷史上第一篇以自動駕駛為主題的最佳論文,該論文首次提出感知決策一體化的自動駕駛通用大模型UniAD,開創了以全局任務為目標的自動駕駛大模型架構先河,標志著自動駕駛技術的重要突破,為自動駕駛技術與產業的發展提出了新的方向。
論文題目:Planning-oriented Autonomous Driving
論文地址:https://arxiv.org/abs/2212.10156
論文顯示,UniAD首次將檢測、跟蹤、建圖、軌跡預測,占據柵格預測以及規劃,整合到一個基於Transformer的端到端網絡框架下,是自動駕駛中重要的技術突破。
UniAD將各任務通過token的形式在特征層面,按照感知-預測-決策的流程進行深度融合,使得各項任務彼此支持,實現性能提升。
在nuScenes數據集的所有任務上,UniAD都達到SOTA性能,比所有其它端到端的方法都要優越,尤其是預測和規劃效果遠超其它模型。
作為業內首個實現感知決策一體化自動駕駛通用大模型,UniAD能更好地協助進行行車規劃,實現「多任務」和「高性能」,確保車輛行駛的可靠和安全。
基 於此,UniAD具有極大的應用落地潛力和價值。
融合五大核心模塊,解決自動駕駛「規劃」難題
為什麼之前的自動駕駛系統做不到呢?
自動駕駛是一項高度復雜的技術,需要多個學科領域的知識和技能,包括傳感器技術、機器學習、路徑規劃等方面。
同時,還需要適應不同的道路規則和交通文化,實現與其它車輛、行人進行良好的交互,以實現高度可靠和安全的自動駕駛系統。
當前大部分自動駕駛系統研究,都聚焦在具體的某個模塊,缺少能夠實現端到端聯合優化的通用網絡模型。
現有的自動駕駛系統可大致歸為三類:
《a》模塊化組成的系統;
《b》多任務模塊架構的系統;
《c》端到端自動駕駛系統。
其中傳統的端到端算法可分為《c.1》基礎的端到端算法,直接從傳感器輸入預測控制輸出,但是優化困難,在充滿復雜視覺信息的真實場景中應用面臨較大挑戰;《c.2》按照任務劃分網絡的顯式設計,但是網絡模塊之間缺乏有效的特征溝通,需要分階段的輸出結果,任務間缺乏有效交互。
《c.3》本文提出的決策導向的感知決策一體設計方法,用token特征按照感知-預測-決策的流程進行深度融合,使得以決策為目標的各項任務指標一致提升。
最為常見的是模塊化組成的系統架構,或者部分模塊組成多任務架構,他們都以優化部分性能為核心,比如檢測性能《檢測準確度》、預測性能《預測準確度》。
而端到端自動駕駛系統,以UniAD自動駕駛通用大模型為代表,是以最終的駕駛性能為目標,從解決實際問題出發,例如提升規劃出來的車輛行駛軌跡的安全性。
現在行業中大多數端到端《End-to-end,E2E》的自動駕駛系統,由於沒有很好的網絡框架來融合全部五大模塊,都隻能融合部分模塊
UniAD首次將檢測、跟蹤、建圖、軌跡預測、占據柵格預測以及規劃五大模塊,整合到一個基於 Transformer 的端到端網絡框架下,各任務間以通用的token形式進行融合,共同優化。
通過將環視的圖片以Transformer映射得到BEV的特征,同時進行目標的跟蹤,在線的建圖,包括目標軌跡的預測,還有障礙物的預測,最終實現駕駛行為。
商湯科技聯合創始人、首席科學家王曉剛表示,UniAD是業內首個感知決策一體化的自動駕駛通用大模型,並且整體系統性能取得大幅提升,代表了未來自動駕駛技術的發展趨勢。
「這種端到端的優化在多項的關鍵技術指標上超越了SOTA。
比如,多目標跟蹤準確率超越SOTA 20%,車道線預測準確率提升30%,預測運動位移誤差降低38%,規劃誤差降低28%。
」
基於UniAD打造的自動駕駛系統,相比其它隻能融合部分模塊的系統,各任務間以通用的token進行融合,可同時完成更多任務、突破更高性能,大大提升各個模塊的聯調效率,更好地解決自動駕駛中的實際問題,以有效推動商業化落地。
以下案例,展示了UniAD在數據集nuScenes上多個復雜場景下的優勢。
UniAD感知到左前方等待的黑色車輛,預測其未來軌跡《即將左轉駛入自車的車道》和未來的occupancy,推算繼續前行有碰撞風險,並立即減速以進行避讓,待黑車駛離後再恢復正常速度直行
得益於 UniAD 的地圖分割模塊與規劃模塊的深度交互,規劃模塊基於道路信息作出判斷,向前行駛時依據道路結構適時地轉彎
在視野幹擾較大且場景復雜的十字路口,UniAD 能通過分割模塊生成十字路口的整體道路結構《如右側 BEV 圖中的綠色分割結果所示》和周圍車輛的軌跡,由基於注意力機制的planner完成大幅度的左轉
在夜晚視野變暗的情況下,由於需要繼續直行至下個路口左轉,UniAD 能感知到前車停止且左右均有障礙物,所以先靜止,待前車行駛並再前行並左轉
以下案例,展示了UniAD在國內真實場景的實際演示效果。
在擁堵路段上,UniAD能感知到前方大車的停車和啟動狀態,做出相應的減速和加速決策,保持足夠的安全距離
得益於地圖重建任務,UniAD在路口和曲折道路上,也可以做出符合道路曲率的路徑規劃
以UniAD感知決策一體化為基礎,推動自動駕駛多模態大模型發展
近些年,作為擁有行業領先技術的人工智能公司,商湯在自動駕駛技術領域的研究和發展佈局一直吸引著人們關注。
例如在今年上海車展上,商湯展示了廣汽埃安AION LX Plus、哪吒S等車型搭載商湯絕影智能駕駛方案的落地成果。
王曉剛認為這些都離不開商湯持續建設打造的「大模型+大裝置」技術路徑,以及在自動駕駛行業長期深耕的積累與實踐。
「2021年,我們在強大的感知模型的指導下開發了自動駕駛的BEV《Bird Eye View》感知算法並提出了在業內具有廣泛影響力的BEV Transformer,在Waymo挑戰賽上,以絕對的優勢取得了冠軍。
現在,我們開發的UniAD第一個集成了感知決策一體化,實現端到端的自動駕駛。
未來我們將沿著多模態大模型的道路,去進一步推動自動駕駛的進步。
」
UniAD 是一項極具創新性的自動駕駛技術,且因其具有很大的潛力和應用價值,目前在學術界和工業界都引起了廣泛興趣和關注。
而隨著通用人工智能《AGI》引領的二次革命的到來,以此為基礎,期待在未來,我們能推動實現更高階的自動駕駛人工智能。
參考資料:
https://arxiv.org/abs/2212.10156