愛集微消息,近日,知名半導體分析機構Semianalysis作者Dylan Patel對特斯拉在AI芯片和雲服務、大數據搜集和AI訓練方面的佈局做了深入分析。
文章認為,特斯拉志在成為全球領先的人工智能公司之一。
迄今為止,特斯拉也許在自動駕駛領域的技術並不是最先進的,Alphabet旗下的Waymo技術被公認為最為先進的技術。
此外,特斯拉在生成式人工智能領域的涉足較少。
然而,特斯拉擁有數據收集能力、專用計算能力、創新文化和頂尖的AI研究人員,這些或許是其在自動駕駛車輛和機器人領域實現跨越式發展的秘訣。
特斯拉在算力方面的提升
目前,特斯拉在內部的AI基礎設施非常有限,隻有大約4000個V100顯卡和16000個A100顯卡。
與世界上其他大型科技公司相比,這個數字非常小,因為像微軟和Meta這樣的公司擁有超過10萬個GPU,而且他們計劃在中短期內將這個數字翻倍。
特斯拉AI基礎設施的薄弱部分是由於其內部訓練芯片『D1』的多次延誤。
然而,現在情況正在迅速改變。
特斯拉將在1.5年內大幅提升了其AI能力,預計增長規模超過10倍。
其中一個原因是提升自身能力,但也有一個很重要的原因是為了X.AI公司的發展。
Semianalysis按季度進行單位估算,深入探討特斯拉的AI產能、H100和Dojo芯片的情況,以及特斯拉因其模型架構、訓練基礎設施和邊緣推理《包括HW 4.0芯片》產生的獨特需求,而且還討論了X.AI公司的發展現狀,X.AI是OpenAI的競爭對手,而馬斯克從OpenAI挖走了許多著名的工程師。
D1訓練芯片的發展曲折又艱辛,從設計到供電方面都遇到了問題,然而現在特斯拉聲稱已經準備好公開展示該芯片,並開始進行批量生產。
文章認為,自2016年以來,特斯拉一直在為其汽車設計內部的AI芯片,並在2018年開始為數據中心應用設計芯片。
在芯片發佈之前,Semianalysis獨家披露了他們所使用的特殊封裝技術,這項技術被稱為InFO SoW,一個與晶圓大小相當的扇出封裝技術。
原則上類似於Cerebras公司的做法,但優點是可以進行可靠的芯片測試。
這是特斯拉架構中最獨特和有趣的方面,因為25個芯片被集成到這個InFO-SoW中,並且沒有直接連接存儲器。
Semianalysis還在2021年更詳細地討論了特斯拉芯片架構的優缺點。
當時是因為芯片上的內存容量不足,特斯拉不得不制作另一款芯片。
特斯拉本應在2022年多次擴大產能,但由於芯片材料和系統問題,始終未能實現這一目標。
現在已經是2023年年中,產能終於開始提升。
這種芯片架構非常適合特斯拉獨特的應用場景,但值得注意的是,它並不適用於對內存帶寬限制嚴重的LLM《低延遲內存》。
文章指出,特斯拉之所以獨特,是因為他們必須專註於圖像網絡。
因此,他們的架構差異很大。
Semianalysis之前曾討論過深度學習推薦網絡和基於Transformer的語言模型需要非常不同的架構設計。
圖像/視頻識別網絡還需要不同的計算、芯片內通信、芯片內存和芯片外存儲的組合。
在訓練過程中,這些卷積模型在GPU上的利用率非常低。
隨著英偉達下一代產品對Transformer模型進行進一步優化,特斯拉對卷積模型的差異化、優化架構的投資有望取得顯著進展,這些圖像網絡必須符合特斯拉推斷基礎設施的限制。
訓練芯片雖然是由臺積電制造的,但在特斯拉電動汽車內運行人工智能推理的芯片被稱為全自動駕駛《FSD》芯片。
特斯拉車輛上的模型非常有限,因為特斯拉堅信他們不需要在車輛中擁有巨大的性能來實現全自動駕駛。
此外,與Waymo和Cruise相比,特斯拉的成本限制更加嚴格,因為他們實際上發貨量很大。
與此同時,Alphabet Waymo和GM Cruise在開發和早期測試階段使用的全尺寸GPU成本要高出10倍,他們正在考慮為他們的車輛制造更快《也更昂貴》的SoC。
特斯拉的FSD系列
第二代芯片從2023年2月開始在車輛上進行發貨,該芯片的設計與第一代非常相似。
第一代芯片基於三星的14nm工藝,采用了三個四核集群的設計,總共有12個Arm Cortex-A72內核,運行頻率為2.2 GHz。
然而,在第二代設計中,特斯拉將CPU核心數量增加到了五個四核集群,共20個Cortex-A72內核。
第二代FSD芯片最重要的部分是3個NPU核心。
這三個核心每個都使用32 MiB的SRAM來存儲模型權重和激活數據。
每個周期,從SRAM中讀取256字節的激活數據和128字節的權重數據傳遞給乘積累加運算《MAC》。
MAC的設計是一個網格,每個NPU核心有一個96×96的網格,每個時鐘周期總共有9,216個MAC和18,432個操作。
每個芯片上的3個NPU運行頻率為2.2 GHz,總計算能力達到121.651萬億次運算每秒《TOPS》。
第二代FSD芯片擁有256GB的NVMe存儲和16GB的Micron GDDR6,其速度為14Gbps,並通過128位內存總線提供224GB/s的帶寬。
後者變化最為顯著,因為帶寬相比上一代提高了約3.3倍。
FLOPs《每秒浮點運算數》相對於帶寬的增加表明HW3芯片難以充分得到利用。
每個HW 4.0中配備兩個FSD芯片。
HW4板性能增加是以額外的功耗為代價的,HW4板的空閑功耗約為HW3的兩倍。
在峰值時,Semianalysis預計功耗也會更高。
外部HW4外殼電壓為16V,電流為10A,即使用功率為160W。
盡管HW4性能有所提升,但特斯拉仍希望使HW3也能實現全自動駕駛,這很可能是因為他們不想對已購買全自動駕駛功能的現有HW3用戶進行改裝。
信息娛樂系統采用了AMD的GPU/APU。
與上一代相比,該系統現在與FSD芯片位於同一板上,而不再使用獨立的擴展板。
HW4平臺支持12個攝像頭,其中一個用於冗餘備份,因此實際使用的是11個攝像頭。
在舊的配置中,前置攝像頭集線器使用了三個低分辨率的120萬像素攝像頭。
而新平臺則使用了兩個更高分辨率的500萬像素攝像頭。
特斯拉目前不使用激光雷達傳感器或其他非攝像頭的方法。
過去,他們確實使用了雷達傳感器,但在中期將其移除。
這極大地降低了車輛的制造成本,特斯拉致力於優化成本,並相信純攝像頭感知是實現自動駕駛的可能途徑。
然而,他們也指出,如果有可行的雷達傳感器可用,他們將將其與攝像頭系統整合。
在HW4平臺上,有一個內部設計的雷達,名為Phoenix。
Phoenix將雷達系統與攝像頭系統結合起來,旨在通過利用更多的數據打造更安全的車輛。
Phoenix雷達使用76-77 GHz頻譜,峰值等效全向輻射功率《EIPR》為4.16 W,平均等效輻射功率《EIRP》為177.4 mW。
它是一種非脈沖式汽車雷達系統,具有三種感知模式。
雷達PCB包括一個用於傳感器融合的Xilinx Zynq XA7Z020 FPGA芯片。
特斯拉AI模型差異化
特斯拉旨在開發基礎的AI模型,以為其自動機器人和汽車提供動力。
這兩者都需要了解周圍環境並在周圍導航,因此可以應用相同類型的AI模型。
為未來的自動平臺創建高效的模型需要大量的研究,具體來說需要大量的數據。
此外,這些模型的推理必須以極低的功耗和低延遲進行,由於硬件限制,這極大減少了特斯拉能夠提供的最大模型尺寸。
在所有公司中,特斯拉擁有可用於深度學習神經網絡訓練的最大數據集。
每輛上路的特斯拉汽車都使用傳感器和圖像來捕捉數據,將這個數乘以上路特斯拉電動汽車的數量,將得到一個龐大的數據集。
特斯拉將其數據收集部分稱為『車隊規模自動標註』。
每輛特斯拉電動汽車都會拍攝一段45-60秒的密集傳感器數據記錄,包括視頻、慣性測量單元《IMU》數據、GPS、裡程計等,並將其發送到特斯拉的訓練服務器上。
特斯拉的模型是通過分割、掩膜、深度、點匹配等任務進行訓練的。
由於在道路上擁有數百萬輛電動汽車,特斯拉有大量經過良好標記和記錄的數據源供選擇,這使得他們能夠在公司的Dojo超級計算機上進行持續的訓練。
然而,特斯拉在數據使用方面的信念與其建立的可用基礎設施相矛盾,特斯拉隻使用了收集到的數據中的一小部分。
由於其嚴格的推理限制,特斯拉因過度訓練其模型以在給定的模型大小內實現最佳準確性而聞名。
過度訓練《over-training》小型模型導致完全自動駕駛的性能出現瓶頸,並且無法利用收集到的所有數據。
許多公司選擇盡可能進行大規模訓練,但他們也使用更強大的汽車推理芯片。
例如,英偉達計劃在2025年向汽車客戶交付具備2000 TeraFLOPS計算能力的DRIVE Thor芯片,這比特斯拉的新HW4芯片要高出15倍以上。
此外,英偉達的架構對於其他模型類型來說更加靈活。