通用視覺大模型SegGPT發佈，將加速自動駕駛等實體智能產業。

新京報訊《記者張璐》2023中關村論壇發佈20項重大科技成果，北京智源人工智能研究院研發的通用視覺大模型SegGPT是其中之一。

SegGPT是國際首個利用視覺提示完成任意分割任務的通用視覺模型，將加速高級別自動駕駛和通用機器人等實體智能產業的發展。

北京智源人工智能研究院院長黃鐵軍說，語言和視覺是智能的兩種最主要形態，初步統計顯示，在人工智能領域從事視覺研究的人員和相關企業占一半左右。

之前，公眾已經使用過人臉識別、車牌識別等相關的人工智能產品，這些產品是基於『專用視覺模型』，即每一個模型解決專門的視覺問題，比如考勤打卡系統的人臉識別模型，不能用於車輛識別。

大模型技術出現之後，通用人工智能成為新的競爭熱點。

用大模型技術解決語言問題時，主要靠語言的上下文關聯。

由於語料很豐富，語言大模型已經取得了重要突破，出現了很多成功的應用。

但視覺識別的難度更大，需要非常精準。

『比如自動駕駛中哪裡是路，哪裡是草地和行人，需要準確區分，對任意場景都能精確分割識別才能叫通用視覺』

黃鐵軍介紹，SegGPT是國際首個利用視覺提示完成任意分割任務的通用視覺模型。

『分割任務是計算機視覺的經典問題，也是通用視覺的基礎。

隨便給出一個圖像，AI系統需要清楚區分圖像中的車、人、道路、環境等不同物體』他說，將視覺分割做好並不容易，比如一輛車是一個整體，但車是由車窗、車輪、擋板等部件組成的，每一個部件又是獨立的對象。

他表示，SegGPT模型可以實現對圖像和視頻中的一切要素分割，比如不同類別的動物、植物、車上的零部件、醫學圖像中的病灶、遙感圖像等。

同時，模型具有靈活推理能力，隻需給出一個或幾個示例圖像和意圖掩碼，模型就能明白用戶意圖，從視覺場景中找到目標對象。

模型還具有視頻分割和追蹤能力。

由於視頻是連續的時間序列，隻需要在第一幀畫面給出意圖，模型就可以在後面的畫面中連續檢測跟蹤目標。

未來，語言類的通用人工智能將更多滿足信息服務類需求，視覺類的通用人工智能主要用於自動駕駛、機器人等實體類智能。

『我們的模型為物理智能體，比如車或者機器人裝上一雙‘眼睛’，讓它即使到復雜場景中也可以分清楚不同事物及其相互關系』黃鐵軍說。

編輯劉夢婕

校對趙琳