特斯拉AI Day 2022全解讀：能走會動的Tesla Bot，DOJO超算明年量產、還有FSD新進展！？

小編輯

2023-01-17

特斯拉

每天打卡閱讀

更深刻理解汽車產業變革

出品：電動星球 News

作者：毓肥

幾個小時前，特斯拉正式舉辦了 2022 AI Day，一場全球汽車、人工智能、信息科技行業翹首以待足足 13 個月的發佈會。

嚴格意義上 AI Day 不像是「發佈會」，而是「交流會」——馬斯克本人也在推特上說，「此活動旨在招聘 AI 和機器人工程師，因此技術含量很高」——換句話說，這是馬斯克的高山流水，為特斯拉的鍾子期而開。

不過這並不妨礙我們以比較輕松的視角，記錄下這場科技狂歡。

因為特斯拉團隊幾乎 100% 實現了去年的承諾，在本屆 AI Day 上帶來了以下技術成果：

不再需要群演的真·Tesla Bot 機器人原型機；

不再停留在 PPT 的 DOJO POD 人工智能超級計算機；

FSD 技術新進展，等等。

當然，即使我們會盡力寫得簡單點，今天的文章依然會相對硬核。

趁著國慶假期，建議大家可以慢慢看，下面馬上開始。

一、Tesla Bot 原型機

Optimus 它來了！

13 個月前還需要群演的 Tesla Bot，今天正式以原型機的形式出現——原型意思是它還沒穿衣服《外殼》。

原型機的樣子比 PPT 裡面明顯更粗放，線束、促動器等零件堆砌略顯凌亂。

但好消息是，Tesla Bot 原型機已經可以走路、打招呼，雙手可以完整舉過頭頂。

在特斯拉的演示視頻裡，Optimus 已經可以做一些簡單的工作，比如搬運箱子、澆花等等。

但更重要的可能是這個畫面：Optimus 眼中的世界，通過純視覺發現並分析周邊的一切，然後識別出自己的任務對象。

事實上 Optimus 不是不能裝上外殼，但出於工程原因，帶外殼版本截止到發佈會當天還不能自如地走路《原因後面再解釋》，隻能簡單揮舞一下手臂。

裝上外殼之後我們發現，更接近量產版的 Optimus，變得更胖了——現在它重 73 公斤，比去年 PPT 版「增重」超過 20%，整個「人」圓了一大圈。

更接近量產，也意味著 Optimus 更高階的參數也可以公佈了：100W 靜坐功耗、500W 快步走功耗、超過 200 檔的關節自由度，光手部自由度就有 27 檔。

另外，Optimus 的大腦由單塊 FSD Chip 組成，意味著算力應該是 HW3.0 的一半《72TOPS》；電池則是 52V 電壓、2.3kWh 容量、內置電子電氣元件的一體單元。

說完數字，是時候聊聊 Optimus 的研發邏輯了。

1. 汽車化

馬斯克說過「當你能解決自動駕駛，你就能解決現實世界中的人工智能」。

這句話點破了特斯拉研發 Optimus 的方法論：大量借鑒汽車研發經驗。

比如借鑒汽車碰撞模擬軟件，為 Optimus 編寫「跌倒測試」軟件。

再比如利用汽車大規模零件的生產經驗，為 Optimus 挑選盡可能保證成本+效率的原材料。

「我們不會用碳纖維、鈦合金這樣的原材料。

因為它們雖然很優秀，但像肩膀這樣的易損部位，制造和維修成本都太貴了」。

除此以外，制造 Optimus 的中心思想，也基本和智能汽車相當：減少線束長度、計算和電子控制單元中心化，等等。

2. 仿生學

既然是類人機器人 humanoid，設計自然要借鑒人類仿生學。

特斯拉用了幾個例子解釋 Optimus 的仿生學，首先是膝關節。

特斯拉表示 Optimus 的關節希望盡量復刻生物學上的「非線性」邏輯，也就是貼合膝關節直立到完全彎曲時的受力曲線。

為此，Optimus 的膝關節使用了類似於平面四桿機構的設計，最終發力效果會更接近人類。

緊接著，我們創造人類文明的雙手，才是 Optimus 類人之路更大的 boss。

Optimus 光手掌區域就用了 6 個促動器，具有 11 檔的自由度。

擁有自適應的抓握角度、20 磅《9 公斤》負荷、工具使用能力、小物件精準抓握能力等等。

此外，Optimus 的手掌用的是「non-backdrivable」無法反向驅動的指尖促動器。

學術界的看法是，這樣的促動器可以提升在「開放環境」下的性能。

最後是讓 Optimus 學著像人類一樣走路——這裡用到的仿生學設計叫做「運動重心控制」。

為什麼有外殼的 Optimus 還不會走？其中一個原因就是重量變了，運動重心控制算法需要重新調試。

事實上，Optimus 不僅要做到會走路，還要做到別摔倒。

所以它不僅需要控制走路的重心，還要穩住受到外力《比如推搡》時的隨機動態重心。

訓練 FSD 用到的神經網絡和在線仿真模擬，這次在 Optimus 身上大顯身手。

路徑規劃、視覺融合、視覺導航等等熟悉的名詞都被「灌輸」到 Optimus 腦子裡。

這樣的努力下，Optimus 今年 4 月邁出了它的第一步；7 月份解鎖了骨盆活動；8 月走路時可以擺手臂了——發佈會前幾周，實現了腳趾離地的類人行走動作。

3. 「肌肉」

我們通過結締組織包裹著的肌肉完成運動，機器人的「肌肉」則叫做促動器 actuator。

如上圖所示，橙色部分均為 Optimus 的促動器，這些促動器也都是特斯拉完全自研的。

特斯拉為 Optimus 從力度大小的角度，設計了 6 種各自獨特的促動器——這其實是很小的數字，業界平均是 20-30，甚至 50 種，目的是覆蓋盡可能多的人類活動細節。

為什麼特斯拉的促動器種類這麼少？原因還是 FSD 體系。

特斯拉舉了 28 種人類常見活動，比如抬舉手臂、彎曲右膝等。

通過分析這些活動反饋的雲數據，找出各類運動的相對共同點，然後就可以盡量減少專門設計促動器的種類。

雖然隻是輕描淡寫的一張 PPT，但我認為促動器從 50 種減少到 6 種，意義實際上遠大於借鑒特斯拉電機經驗的促動器本體——因為它代表著數據為王的新工業時代。

不過促動器種類大幅度減少，也意味著 Optimus 前期的實際效果可能會沒有那麼「類人」，當然還是得等最終交付了。

最後來說一個數字：2 萬美元《約 14 萬元》。

這筆錢買不到半臺 Model 3《參數丨圖片》，但卻是馬斯克口中 Optimus 的目標售價。

「它會徹底改變人類社會的效率，就像無人交通可以徹底改變運輸效率」。

二、DOJO 的終極形態？

本來發佈會的第二部分是 FSD，但那部分過於硬核，我決定先讓大家看點激動人心的數字。

去年 DOJO 驚艷全世界，但遺憾的是有太多細節未公佈。

D1 芯片是怎麼組成 EXA POD 超算系統的？理論性能爆炸，能代表實際應用嗎？

這部分，特斯拉舉了大量的數據，證明自己已經是計算領域的新巨頭。

首先是散熱。

先別發問號，超算平臺的散熱，一直是衡量超算制造者系統工程能力的重要維度。

比如谷歌、華為、英偉達在公佈自家方案的時候，都會花大篇幅講散熱。

DOJO POD 的散熱可以用兩個詞概括：高集成度、高自研率。

特斯拉在 DOJO POD 上使用了全自研的 VRM《電壓調節模組》，單個 VRM 模組可以在不足 25 美分硬幣面積的電路上，提供超過 1000A 的電流。

高集成度帶來的問題，是熱膨脹系數 CTE。

DOJO 堪稱極限的體積集成率和發熱，意味著 CTE 稍微失控，都會對系統結構造成巨大破壞《也就是會撐爆》。

為此，這套自研 VRM 在過去兩年內迭代了 14 個版本，最終才完全符合特斯拉對 CTE 指標的要求。

目前 DOJO POD 已經進入負載測試階段——單機櫃 2.2MW 的負載，相當於 6 臺 Model Y 雙電機全力輸出。

解決了散熱，才有資格說集成度。

一個 DOJO POD 機櫃由兩層計算托盤和存儲系統組成。

每一層托盤都有 6 個 D1 Tile 計算「瓦片」——兩層 12 片組成的一個機櫃，就可以提供 108PFLOPS 算力的深度學習性能。

對了，DOJO POD 的供電模組也是 52V 電壓的，Optimus 母親實錘了。

每層托盤都連接著超高速存儲系統：640GB 運行內存可以提供超過 18TB 每秒的運算帶寬，另外還有超過 1TB 每秒的網絡交換。

為了適配訓練軟件以及運營/維護，每個托盤還配備了專屬的管理計算中心。

最終，可以提供1.1E 算力、13TB 運存、1.3TB 緩存的 EXA POD，將於 2023 年 Q1，正式量產——這也是今天發佈會唯一一個有確定日期的特斯拉產品。

意大利炮有了，能不能轟下縣城？

特斯拉表示，配合專屬的編譯器，DOJO 的訓練延遲，最低可以做到同等規模 GPU 的1/50！

最終，特斯拉的目標是到 2023 年 Q1 量產時，DOJO 可以實現相比英偉達 A100，最高 4.4 倍的單芯片訓練速度——甚至能耗和成本都更低。

三、FSD 的新進化

文章來到這裡，大家的手指應該已經劃了很多次屏幕。

這也說明，看到這裡依然興致勃勃的你，一定是特斯拉老粉——那就聊點更「無聊」、更硬核的吧。

篇幅有限，本屆 AI Day 關於 FSD 的進展，我們隻聊三個點：Occupancy Network、Training Optimization、Lanes。

1. Occupancy Network

先聊一個概念：矢量圖。

做設計的朋友一定很熟悉，這是一種精度《分辨率》可以做到無限，但占用存儲空間很小的數字繪圖。

Occupancy Network，就是將 3D 向量數據繪制成矢量圖的、 2019 年開始興起的一種三維重建表達方法。

有意思的是，特斯拉用了最 Occupancy Network 的方式，表達他們對 Occupancy Network 的應用：網格《方塊》化的 3D 模擬。

其實 FSD 眼中的世界並不是這樣 Minecraft 化的，但 Occupancy Network 的本質特征，就是用「決策邊界」描繪「物體邊緣」。

盡管 Occupancy Network 效率很高，但實際訓練規模依然足夠可觀。

目前特斯拉公佈的數據是超過14.4 億幀視頻數據，需要超過10 萬個 GPU 訓練小時，實際視頻緩存超過30PB——而且全程 90℃ 滿負載。

二、因此，Training Optimization 訓練優化尤為重要。

去年 Andrej 公佈了特斯拉的千人 in-house 標註團隊，今年特斯拉的重點，則在於優化自動標註流程。

大概總結一下就是，優化過後，訓練時視頻幀選取會更智能，同時大幅度減少選取的視頻幀數量——可以提高 30% 的訓練速度。

另外視頻模型訓練時 smol 異步庫文件體積可以縮小 11%，所需的讀取次數足足縮小到 1/4…最終這套優化流程讓特斯拉的 Occupancy Network 訓練效率提升了 2.3 倍。

3. 最後聊聊車道線 Lanes。

從 FSD Beta 10.12 開始，幾乎每一版更新，車道線和無保護左轉，都是更新日志的第一條。

為了更準確高效應對車道線，特斯拉這次「編」了一套「屬於車道的語言」。

其中包括車道級別的地理幾何學和拓撲幾何學、車道導航、公交車道計算、多乘員車輛車道計算等等。

最終這套「車道的語言」，可以在小於 10 毫秒的延遲內，思考超過 7500 萬個可能影響車輛決策的因素——而且 FSD 硬件「學會」這套語言的代價《功耗》，還不足 8W。

四、四十年後，開始圓夢？

寫到這裡，我真的很頭疼。

一方面是我們大部分人，都不是這屆 AI Day 的對象——馬斯克眼裡隻有招聘。

另一方面，是現在一家汽車公司的發佈會，對知識面要求實在太高了。

還是說回馬斯克吧，40 年前的他，還是個每天會看 10 個小時科幻小說的小孩子，沉醉於《銀河系漫遊指南》、《基地》、《嚴厲的月亮》等等。

但正是這些科幻小說，培養了馬斯克冰冷卻又宏大的事業觀。

他會跟你說人類社會生產力的效率可以擴大到無限，他會跟你說人口是維系文明的最重要因素。

所以，當我們把 52 歲的馬斯克和 12 歲的馬斯克放在一起，你會發現他倆依然在本質上是同一個人。

也正因如此，你看到他如今幾乎涉獵了科幻小說所有最熱門題材的商業帝國，才會覺得「哦，那很正常」。

希望明年我們能看到更接近現實的馬斯克童夢吧。

《完》