CVPR最佳論文頒給自動駕駛大模型！中國團隊第一單位。

金磊假裝發自溫哥華
量子位 | 公眾號 QbitAI

這個高光時刻，屬於自動駕駛，屬於大模型，更是屬於中國團隊。

就在剛剛，CVPR 2023最佳論文新鮮出爐，2篇論文從總量高達9155篇的投稿中脫穎而出。

對於這2篇最佳論文中的任何一個，可以說用『萬裡挑一』來形容都不足為過了。

第一篇名為Planning-oriented Autonomous Driving《以路徑規劃為導向的自動駕駛》，由上海人工智能實驗室、武漢大學及商湯科技聯合完成。

據了解，這是近十年來，計算機視覺三大頂級國際會議《CVPR、ICCV、ECCV》上，第一篇以中國學術機構作為第一單位的最佳論文。

第二篇名為Visual Programming: Compositional visual reasoning without training《視覺編程：未經訓練的組合視覺推理》，由艾倫人工智能研究所發表。

而在最佳論文的『候選名單』中，不乏谷歌、斯坦福大學、康奈爾大學等在內的頂尖企業和高校。

競爭之激烈，可見一斑。

那麼這兩篇為何能在眾多論文中成為佼佼者，我們繼續往下看。

首次提出感知決策一體的自動駕駛通用大模型

自動駕駛歷來被人們稱為集AI技術之大成者。

一般在自動駕駛任務中，通常包含三大模塊，分別是感知、預測和規劃，不過主流方案通常是分開來處理具體任務。

由此導致的缺陷也是比較明顯，要麼是任務之間協調不足，要麼是影響到了整體性能的提升。

基於這樣的一個背景，這篇論文便首次提出了感知決策一體化的自動駕駛通用大模型——UniAD。

UniAD是一個綜合框架，將全棧駕駛任務整合到一個基於Transformer的端到端網絡中。

除了我們剛才提到的三個主任務之外，還包括六個子任務，包括目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規劃。

那麼如此『大一統』的方式之下，結果又如何？

根據論文顯示，在nuScenes真實場景數據集中，UniAD的所有任務均達到SOTA！

具體『實戰』效果如下：

在面對采訪時，上海人工智能實驗室青年科學家李弘揚介紹：

憑借其充分的可解釋性、安全性、與多模塊的可持續迭代性，UniAD是目前為止最具希望實際部署的端到端模型。

值得一提的是，除了這篇最佳論文之外，上海人工智能實驗室和商湯科技在本屆CVPR中均取得了不凡的表現。

兩個單位還聯合斬獲了一篇最佳論文候選，共計54篇論文被接收。

通過編寫代碼解決計算機視覺任務的AI

在第二篇論文中，研究人員提出了VISPROG，是一種神經符號結合《Neuro-Symbolic》的方法，用於在給定自然語言指令的情況下解決復雜和組合的視覺任務。

VISPROG無需對任何特定任務進行專門訓練。

相反，它利用大語言模型的上下文學習能力，生成類似Python代碼的模塊化程序，然後執行這些程序來獲得解決方案和全面且可解釋的理由。

生成的程序的每一行可能會調用多個現成的計算機視覺模型、圖像處理程序或Python函數，來生成可能被程序的後續部分使用的中間輸出。

研究人員在四個不同的任務上展示了VISPROG的靈活性，包括組合視覺問答、對圖像對進行零樣本推理、事實知識對象標簽和以語言引導的圖像編輯。

研究人員表示：

像VISPROG這樣的神經符號方法是令人興奮的，它可以輕松有效地對AI系統做擴展，滿足人們可能希望執行的復雜任務需求。

CVPR 2023其它獎項一覽

除了2篇最佳論文之外，其它獎項也在剛剛的開幕式中逐一浮出水面。

最佳學生論文——

3D Registration with Maximal Cliques。

這篇論文的作者來自西北工業大學，提出了一種新的3D點雲配準方法，能夠獲得最優的姿態假設。

最佳學生論文榮譽獎——

DreamBooth: Fine Tuning Text-to-lmage Diffusion Models for Subject-Driven Generation。

來自谷歌，可以基於少量的圖片，利用text-to-image模型將其轉換到不同場景中，並且保持高分辨率。

這篇論文的方法已在AI繪畫社區被廣泛使用。

除此之外，大會還頒發了PAMITC獎，包括Longuet-Higgins獎、年輕研究者獎以及Thomas Huang紀念獎。

Longuet-Higgins獎——

年輕研究者獎——

Thomas Huang紀念獎——

關於本屆最佳論文更細致的內容，可戳下方鏈接查看詳情：

兩篇最佳論文地址：
[1]https://arxiv.org/abs/2212.10156
[2]https://arxiv.org/abs/2211.11559

參考鏈接：
[1]https://twitter.com/cvpr/status/1671545306838626306?s=46&t=iTysI4vQLQqCNJjSmBODPw
[2]https://mp.weixin.qq.com/s/8svV4yxRi6TikcRivgHr_A
[3]https://finance.eastmoney.com/a/202306212759316444.html
[4]https://github.com/OpenDriveLab/UniAD
[5]https://blog.allenai.org/visual-programming-ca58c7af51cd

學術界聖地，給國內自動駕駛一席之地了！。

首個感知決策一體化自動駕駛通用大模型！商湯聯合團隊獲CVPR 2023最佳論文。