通用視覺大模型SegGPT發佈,將加速自動駕駛等實體智能產業。

新京報訊《記者張璐》2023中關村論壇發佈20項重大科技成果,北京智源人工智能研究院研發的通用視覺大模型SegGPT是其中之一。

SegGPT是國際首個利用視覺提示完成任意分割任務的通用視覺模型,將加速高級別自動駕駛和通用機器人等實體智能產業的發展。

北京智源人工智能研究院院長黃鐵軍說,語言和視覺是智能的兩種最主要形態,初步統計顯示,在人工智能領域從事視覺研究的人員和相關企業占一半左右。

之前,公眾已經使用過人臉識別、車牌識別等相關的人工智能產品,這些產品是基於『專用視覺模型』,即每一個模型解決專門的視覺問題,比如考勤打卡系統的人臉識別模型,不能用於車輛識別。

大模型技術出現之後,通用人工智能成為新的競爭熱點。

用大模型技術解決語言問題時,主要靠語言的上下文關聯。

由於語料很豐富,語言大模型已經取得了重要突破,出現了很多成功的應用。

但視覺識別的難度更大,需要非常精準。

『比如自動駕駛中哪裡是路,哪裡是草地和行人,需要準確區分,對任意場景都能精確分割識別才能叫通用視覺』

黃鐵軍介紹,SegGPT是國際首個利用視覺提示完成任意分割任務的通用視覺模型。

『分割任務是計算機視覺的經典問題,也是通用視覺的基礎。

隨便給出一個圖像,AI系統需要清楚區分圖像中的車、人、道路、環境等不同物體』他說,將視覺分割做好並不容易,比如一輛車是一個整體,但車是由車窗、車輪、擋板等部件組成的,每一個部件又是獨立的對象。

他表示,SegGPT模型可以實現對圖像和視頻中的一切要素分割,比如不同類別的動物、植物、車上的零部件、醫學圖像中的病灶、遙感圖像等。

同時,模型具有靈活推理能力,隻需給出一個或幾個示例圖像和意圖掩碼,模型就能明白用戶意圖,從視覺場景中找到目標對象。

模型還具有視頻分割和追蹤能力。

由於視頻是連續的時間序列,隻需要在第一幀畫面給出意圖,模型就可以在後面的畫面中連續檢測跟蹤目標。

未來,語言類的通用人工智能將更多滿足信息服務類需求,視覺類的通用人工智能主要用於自動駕駛、機器人等實體類智能。

『我們的模型為物理智能體,比如車或者機器人裝上一雙‘眼睛’,讓它即使到復雜場景中也可以分清楚不同事物及其相互關系』黃鐵軍說。

編輯 劉夢婕

校對 趙琳