特斯拉渴望成為世界領先的人工智能公司之一。
迄今為止,他們還沒有部署最先進的自動駕駛系統,這項榮譽適用於Alphabet的Waymo。
此外,特斯拉在生成式人工智能世界中也不見蹤影。
話雖如此,由於數據收集優勢、專業計算、創新文化和領先的人工智能研究人員,特斯拉有可能在自動駕駛汽車和機器人領域實現跨越。
特斯拉目前在內部擁有非常少量的人工智能基礎設施,隻有約4000個NVIDIA V100和約16000個NVIDIA A100。
與世界上其他大型科技公司相比,這是一個非常小的數字,因為像微軟和Meta這樣的公司擁有超過10萬個GPU,而且他們希望在中短期內將這些數字翻一番。
特斯拉薄弱的人工智能基礎設施部分是由於其內部D1訓練芯片的多次延遲。
現在情況正在迅速發生變化。
特斯拉計劃1.5年內將其人工智能能力大幅提高了10倍以上。
這部分是為了他們自己的能力,但也有很大一部分是為了馬斯克新成立的人工智能公司X.AI。
今天,我們想深入了解特斯拉的人工智能能力,包括其擁有的H100和Dojo D1數量,以及按季度增長情況,以及特斯拉因其模型架構、培訓基礎設施和邊緣推理《包括HW 4.0》而產生的獨特需求。
最後,我們想討論X.AI在做什麼,它是馬斯克對OpenAI的競爭對手,從OpenAI挖走了許多著名的工程師。
D1訓練芯片的故事是一個漫長而艱巨的故事。
它面臨著從矽設計到電力輸送的問題,但現在特斯拉聲稱它已經做好了引人註目的準備,並開始批量生產。
特斯拉自2016年以來一直在為其汽車設計內部人工智能芯片,自2018年以來一直為數據中心應用設計。
在D1芯片發佈之前,semianalysis獨家披露了他們使用的特殊封裝技術。
這種技術被稱為InFO SoW。
簡單來說,可以把它想象成一個晶圓大小的扇形封裝。
這與Cerebras的整張晶圓大小的AI芯片原理類似,但優點是允許進行已知的良好模具測試。
這是特斯拉架構中最獨特、最有趣的方面,因為這款InFO SoW內置了25個芯片,沒有直接連接存儲器。
早在2021年,semianalysis還更詳細地討論了他們芯片架構的優點和缺點。
自那以來,最有趣的方面是,由於片上存儲器不夠,特斯拉不得不制造另一個位於PCIe卡上的芯片來提供存儲器連接。
特斯拉本應在2022年提升產量,但由於矽和系統問題,並未這麼做。
現在已經進入2023年年中,D1芯片終於在提高產量。
該架構非常適合特斯拉獨特的用例,但值得注意的是,它對內存帶寬嚴重受限的LLM沒有用處。
特斯拉的用例是獨一無二的,因為它必須專註於圖像網絡。
因此,它們的架構差別很大。
過去,我們討論了深度學習推薦網絡和基於轉換器的語言模型需要非常不同的架構。
圖像/視頻識別網絡還需要不同的計算、片上通信、片上存儲器和片外存儲器需求組合。
在訓練過程中,這些卷積模型在GPU上的利用率非常低。
隨著英偉達的下一代對變壓器,特別是稀疏MoE的進一步優化,特斯拉對其差異化、優化的卷積架構的投資應該會很好地發揮作用。
這些圖像網絡必須符合特斯拉推理基礎設施的限制。
特斯拉HW 4.0,第二代FSD芯片
除了由臺積電代工制造的D1訓練芯片之外,但在特斯拉電動汽車內部運行人工智能推理的芯片被稱為全自動駕駛《FSD》芯片。
特斯拉汽車上的車型極其有限,因為特斯拉有一個非常頑固的信念,即他們不需要巨大性能就可以實現全自動駕駛。
此外,特斯拉的成本限制比Waymo和Cruise嚴格得多,因為它們實際上出貨量更大。
與此同時,Alphabet Waymo和通用汽車Cruise正在使用全尺寸GPU,在開發和早期測試期間,它們的汽車成本高出10倍,並希望為自己的汽車制造更快《更昂貴》的SoC。
特斯拉第二代FSD芯片自2023年2月開始在汽車上發貨,該芯片的設計與第一代芯片非常相似。
第一代基於三星的14nm工藝,圍繞三個四核集群構建,共有12個Arm Cortex-A72核心在2.2 GHz主頻下運行。
然而,在第二代設計中,特斯拉將CPU內核數量增加到了五個4核集群《20個》,總共有20個Cortex-A72內核。
第二代FSD芯片最重要的部分是三個NPU核心。
三個核心使用32 MB的SRAM,每個用於存儲模型權重和激活。
每個周期,從SRAM向乘法累加單元《MAC》讀取256字節的激活數據和128字節的權重數據。
MAC的設計是一個網格,每個NPU核心都有一個96×96的網格,每個時鐘周期總共有9216個MAC和18432個操作。
每個芯片有三個NPU以2.2 GHz的頻率運行,總計算能力為每秒121.651萬億次運算《TOPS》。
第二代FSD具有256GB的NVMe存儲和16GB的Micron GDDR6,14Gbps,位於128位內存總線上,提供224GB/s的帶寬。
後者是最值得注意的變化,因為帶寬一代比一代增加了約3.3倍。
FLOPS相對於帶寬的增加表明HW3很難被充分利用。
每個HW 4.0有兩個FSD芯片。
HW4.0板級性能的提高是以額外的功耗為代價的。
與HW3.0相比,HW4.0級的空閑功耗大約是HW3.0主板的兩倍。
在高峰期,預計它也會更高。
外部HW4.0外殼在10安培時顯示為16伏,轉換為160瓦的使用功率。
盡管HW4.0的性能有所提高,但特斯拉希望HW3.0也能實現FSD,可能是因為他們不想改造購買FSD的現有HW3.0用戶。
信息娛樂系統采用AMD GPU/APU。
與上一代有一個單獨的子板相比,這也與FSD芯片在同一塊板上。
HW4.0平臺支持12個攝像頭,其中一個用於冗餘目的,因此有11個攝像頭在使用中。
在舊的設置中,前置攝像頭集線器使用了三個分辨率較低的120萬像素攝像頭。
新平臺使用了兩個分辨率更高的500萬像素攝像頭。
特斯拉目前不使用激光雷達傳感器或其他類型的非攝像頭方法。
在過去,他們確實使用雷達,但在第三代中期就被取消了。
這大大降低了汽車的制造成本,特斯拉對其進行了優化,該公司認為純攝像頭傳感是自動駕駛汽車的一條可能路線。
然而,他們也指出,如果有可行的雷達,他們將把它與攝像系統集成在一起。
在HW4.0平臺中,有一個內部設計的雷達,名為Phoenix。
Phoenix將雷達系統與攝像頭系統相結合,旨在通過利用更多數據創造更安全的車輛。
Phoenix雷達使用76-77 GHz頻譜,峰值有效各向同性輻射功率《EIPR》為4.16瓦,平均EIRP為177.4毫瓦。
它是一種具有三種傳感模式的非脈沖汽車雷達系統。
雷達PCB包括用於傳感器融合的Xilinx Zynq XA7Z020 FPGA。
特斯拉AI車型差異化
特斯拉的目標是生產基礎人工智能模型,為其自動駕駛機器人和汽車提供動力。
兩者都需要意識到周圍的環境並在周圍導航,因此相同類型的人工智能模型可以應用於兩者。
為未來的自主平臺創建高效的模型需要大量的研究,更具體地說,需要大量的數據。
此外,這些模型的推斷必須以極低的功率和低的延遲來完成。
由於硬件限制,這大大降低了特斯拉可以提供的最大車型尺寸。
在所有公司中,特斯拉擁有可用於訓練其深度學習神經網絡的最大數據集。
路上的每輛車都使用傳感器和圖像來捕捉數據,並將其乘以路上的特斯拉電動汽車數量,得出一個龐大的數據集。
特斯拉將其收集數據的部分稱為『車隊規模的自動標記』。
每輛特斯拉電動汽車都會采集一段45-60秒的密集傳感器數據日志,包括視頻、慣性測量單元《IMU》數據、GPS、裡程計等,並將其發送到特斯拉的培訓服務器。
特斯拉的模型接受了分割、掩碼、深度、點匹配和其他任務的訓練。
由於有數百萬輛電動汽車在路上行駛,特斯拉擁有大量的數據源,這些數據源都有很好的標記和記錄。
這使得能夠在該公司的設施中進行Dojo超級計算機的持續培訓。
特斯拉對數據的信念與該公司已經建立的可用基礎設施相矛盾。
特斯拉隻使用了他們收集的數據中的一小部分。
特斯拉因其嚴格的推理限制而過度訓練其模型,以在給定的模型尺寸內實現盡可能好的精度而聞名。
過度訓練小型車型會導致全自動駕駛的性能停滯不前,並且無法使用收集到的所有數據。
許多公司同樣選擇盡可能大規模地進行培訓,但他們也在使用功能強大得多的汽車推理芯片。
例如,英偉達計劃在2025年為汽車客戶提供2000多TeraFLOPS計算能力的DRIVE Thor,這是特斯拉新HW4.0的15倍以上。
此外,英偉達架構對其他型號更為靈活。
編輯:芯智訊-林子 編譯自:semianalysis