學術界聖地，給國內自動駕駛一席之地了！。

CVPR 2023 正式公佈最佳論文等重磅獎項。

來自上海人工智能實驗室、武漢大學、商湯科技團隊聯合發表論文Planning-oriented Autonomous Driving《以路徑規劃為導向的自動駕駛》實現自動駕駛技術的重要突破，獲CVPR最佳論文。

國內自動駕駛，真的出息了！

一覺醒來，還沒來得及吃口熱乎粽子，就看見一條堪稱爽文的熱乎新聞：

在2023年，CVPR大會的論文投稿總量達9155篇。

其中，商湯科技及聯合實驗室共有 54篇論文被CVPR 2023接收，包含一篇最佳論文、一篇最佳論文候選，以及七篇Highlight論文。

論文題目：Planning-oriented Autonomous Driving

論文地址：https://arxiv.org/abs/2212.10156

在近萬篇論文中，上海人工智能實驗室、武漢大學、商湯科技聯合團隊研究成果Planning-oriented Autonomous Driving《以路徑規劃為導向的自動駕駛》最終脫穎而出，獲CVPR 2023最佳論文獎《Best Paper Award》。

《劃重點》要知道這個國際獎項已經頒了40年，但以自動駕駛為主題的論文獲獎可是第一次！

另外參與CVPR評選需要和全球各地的頂尖學者來一套『過五關斬六將』，拿了這個獎堪稱為國爭光《進度條：已擊敗全球99.99%學者/學術機構》！

平復激動的心情，接下來咱們就聊聊這個獲獎的事兒。

首先這個頒獎機構用一個詞來形容，就是頂級《到能讓一個研究生原地畢業》。

CVPR一年舉辦一次，是計算機視覺領域的全球級會議。

要想知道一個會議有多少含金量，看業內人的關注度就懂了，CVPR的隆重程度：從1983年開始，每年吸引著全球各地的學術大牛《參數丨圖片》們來參與，近幾年投稿量都近萬篇，即使這些天之驕子總是第一輪就會被刷掉3/4。

當然這可不是什麼鍍金的手段，這個會議憑借著高質量和低成本，它為眾多研學者提供著教科書般的行業價值。

目前在中國計算機學會推薦國際學術會議的排名裡，CVPR為人工智能領域的A級會議。

除了水平認證，CVPR回報給這些學者們最重要的是尊重和公平。

在初次篩選中，評審們給出的選擇不是通不通過，而是細致到『非常接受』、『接受』、『差不多』、『拒絕』、『非常拒絕』。

同時評審們不屬於CVPR機構組織，對手裡的稿件都是盲審。

最關鍵的是，稿件不允許出現任何能顯示作者信息身份的元素《懷疑定這個規矩的人參加過我們語文高考》！所以評審們和作者都不知道彼此是誰！因此，最後脫穎而出的作品都是用實力經過細審，沒什麼運氣的成分。

話說咱們國內智能車現在發展的如火如荼，也不知道當時有沒有評審猜中過這篇論文的歸屬地。

話不多說，接下來咱們就來看看這篇論文是靠什麼獲得國際認證的。

我們人類開車時的思路通常是『堵車了，我得剎停』，而自動駕駛車的思路則是『感知前方障礙物的時速和距離、系統算法判斷場景需求決定剎車、牽動制動系統』。

顯然，如果自動駕駛系統將流程整合起來會帶來更絲滑、BUG更少的體驗。

這篇以自動駕駛為主題的論文就是從此角度切入問題，核心在於首次提出感知決策一體化的自動駕駛通用大模型UniAD。

UniAD將檢測、跟蹤、建圖、軌跡預測，占據柵格預測以及規劃，整合到一個基於Transformer的端到端網絡框架下。

不用覺得復雜，我們挑取2個重點詞『檢測』、『規劃』，也就是說這個框架在環境中可以直接給出相應的指令。

UniAD將各任務通過token《最小單位》的形式在特征層面，按照感知-預測-決策的流程進行深度融合，使得各項任務彼此支持，實現性能提升。

在nuScenes數據集的所有任務上，UniAD都達到 SOTA 性能。

融合五大核心模塊，解決自動駕駛『規劃』難題

為什麼之前的自動駕駛系統做不到呢？

現有的自動駕駛系統可大致歸為三類：

《a》模塊化組成的系統；

《b》多任務模塊架構的系統；

《c》端到端自動駕駛系統。

其中傳統的端到端算法可分為：

《c.1》基礎的端到端算法，直接從傳感器輸入預測控制輸出，但是優化困難，在充滿復雜視覺信息的真實場景中應用面臨較大挑戰；

《c.2》按照任務劃分網絡的顯式設計，但是網絡模塊之間缺乏有效的特征溝通，需要分階段的輸出結果，任務間缺乏有效交互。

《c.3》這篇論文裡提出的決策導向的感知決策一體設計方法，用token特征按照感知-預測-決策的流程進行深度融合，使得以決策為目標的各項任務指標一致提升。

最為常見的是模塊化組成的系統架構，或者部分模塊組成多任務架構，他們都以優化部分性能為核心，比如檢測性能《檢測準確度》、預測性能《預測準確度》。

以上一些算法的BUG總結起來其實就是流程瑣碎，一損俱損。

這和當下智駕方案都急著擺脫高精地圖的原因有點類似。

畢竟依賴高精地圖的話，哪怕硬件、算法再好，只要地圖有偏差，整套方案直接崩盤。

所以大家都在做『簡化和收納』。

而端到端自動駕駛系統，以UniAD自動駕駛通用大模型為代表，將檢測、跟蹤、建圖、軌跡預測、占據柵格預測以及規劃五大模塊融合，以最終的駕駛性能為目標，從解決實際問題出發，例如提升規劃出來的車輛行駛軌跡的安全性。

現在行業中大多數端到端《End-to-end，E2E》的自動駕駛系統，由於沒有很好的網絡框架來融合全部五大模塊，都隻能融合部分模塊。

UniAD通過將環視的圖片以Transformer映射得到BEV的特征，同時進行目標的跟蹤，在線的建圖，包括目標軌跡的預測，還有障礙物的預測，最終實現駕駛行為。

環視一圈，現觀察現預測，然後決定怎麼行動，聽起來是不是有人類開車的味兒了？

據商湯科技聯合創始人、首席科學家王曉剛表示，UniAD可以做到『多目標跟蹤準確率超越SOTA 20%，車道線預測準確率提升30%，預測運動位移誤差降低38%，規劃誤差降低28%』

下面展示了UniAD在數據集nuScenes上多個復雜場景下的優勢。

UniAD 感知到左前方等待的黑色車輛，預測其未來軌跡《即將左轉駛入自車的車道》和未來的occupancy，推算繼續前行有碰撞風險，並立即減速以進行避讓，待黑車駛離後再恢復正常速度直行。

得益於 UniAD 的地圖分割模塊與規劃模塊的深度交互，規劃模塊基於道路信息作出判斷，向前行駛時依據道路結構適時地轉彎。

在視野幹擾較大且場景復雜的十字路口，UniAD 能通過分割模塊生成十字路口的整體道路結構《如右側 BEV 圖中的綠色分割結果所示》和周圍車輛的軌跡，由基於注意力機制的planner完成大幅度的左轉。

在夜晚視野變暗的情況下，由於需要繼續直行至下個路口左轉，UniAD 能感知到前車停止且左右均有障礙物，所以先靜止，待前車行駛並再前行並左轉。

雖然現在自動駕駛的目標還是趕緊追上人類，但是不得不說有些場景中大模型觀察環境比我們都更加全面細致，以下案例，展示了UniAD在國內真實場景的實際演示效果。

在擁堵路段上，UniAD能感知到前方大車的停車和啟動狀態，做出相應的減速和加速決策，保持足夠的安全距離。

得益於地圖重建任務，UniAD在路口和曲折道路上，也可以做出符合道路曲率的路徑規劃。

自動駕駛多模態大模型發展和落地

在學術圈大家都認這麼一個理兒：不能落地的論文得再好的獎也沒有價值。

這篇《以路徑規劃為導向的自動駕駛》用幾千字提出了UniAD 這項自動駕駛技術，為產業發展拓展了一個新的方向。

實際上，它的創造者已經在努力將這些價值落地了。

作為創作者之一的商湯科技，一直致力於自動駕駛技術領域的研究和發展佈局。

例如在今年上海車展上，商湯展示了廣汽埃安AION LX Plus、哪吒S等車型搭載商湯絕影智能駕駛方案的落地成果。

王曉剛將這些成果歸功於商湯持續建設打造『大模型+大裝置』技術路徑，以及在自動駕駛行業長期深耕的積累與實踐，並表示未來將沿著多模態大模型的道路，去進一步推動自動駕駛的進步。

所以這篇論文不隻是學術上一次舌戰群儒的勝利，更關鍵的是它將成為自動駕駛大漠臺多模型落地的標志，繼續發揮它的應用價值，去推動實現更高階的自動駕駛人工智能。

期待國內自動駕駛行業再次實現擊敗全球99.99%對手的進度條！

【科學強國】ChatGPT進入車載系統自動駕駛『加速』！。

CVPR最佳論文頒給自動駕駛大模型！中國團隊第一單位。

學術界聖地，給國內自動駕駛一席之地了！。

【科學強國】ChatGPT進入車載系統 自動駕駛『加速』！。

CVPR最佳論文頒給自動駕駛大模型！中國團隊第一單位。

【科學強國】ChatGPT進入車載系統自動駕駛『加速』！。