在特斯拉AI Day發(fā)布會,Dojo這個特斯拉自己定制超級計算平臺,它的出現(xiàn)是從頭開始構建,用于自動駕駛視頻數(shù)據(jù)進行視頻訓練。主要兩個目的:其一是比市售云計算更便宜;其二是比市售云計算更強大——從某種意義上,特斯拉和Jeff Bezos 是不對付的,所以特斯拉是希望與亞馬遜 AWS 相提并論,使用在線提供的服務,可以用更少的錢、更快地訓練模型。
特斯拉已有是基于 NVIDIA GPU 的大型超級計算機,新的 Dojo 定制計算機,是在設計層面做有效的突破。
▲圖1. Dojo的計算效果
Dojo Exapod規(guī)格:1.1 EFLOP、1.3 TB SRAM 和 13 TB 高帶寬 DRAM。
從設計之初,硬件層面要為深度的神經網絡訓練做考慮,從芯片到機組再到機房的傳輸帶寬都是非常擴展,將Occupancy網絡應用于Dojo系統(tǒng)之中,實現(xiàn)了AI硬件與AI軟件的更佳匹配,最后在降低延遲和性能損失上取得的效果十分驚人。
▲圖2. 特斯拉的ExaPOD效果圖
Dojo超級計算機系統(tǒng)的未來路線圖如下:
▲圖3. Dojo的整體Roadmap
Part 1、電源和帶寬設計
1)電源供給
在技術部分,好的計算模塊需要非常特制的電源設計,在這里電壓調節(jié)模塊可以傳輸1000A電流,具有超高密度,利用多層垂直電源管理材料過渡。這個設計具有高性能、高密度(0.86A/mm²)、復雜集成性,未來的目標是減少54%的CTE,提升3倍性能。在這里提高功率密度是提升系統(tǒng)性能的核心和基石,有趣的是特斯拉在24個月內設計更新了14個版本。
在這個電源設計中,充分考慮了電容、時鐘和振動特性。
● 軟端子連接電容來減少振動
● MEMS時鐘可以有10倍更低的Q-Factor
● 下一步優(yōu)化開關頻率
▲圖4. 配套的電源模塊
▲圖5. Training Tile的結構
2)可擴展的系統(tǒng)
系統(tǒng)集合,包含了功率、結構和散熱三部分,這個最小單元System Tray參數(shù):75mm高度、54 PFLOPS(BF16/CFP8)、13.4 TB/S(對分帶寬)、100+ KW Power
Standard Interface Processor參數(shù):32GB(高帶寬動態(tài)隨機存取存儲器)、900 TB/S(TTP帶寬)、50 GB/S(以太網帶寬)、32GB/S(第四代PCI帶寬)
High Interface Processor參數(shù):640GB(高帶寬動態(tài)隨機存取存儲器)、1TB/S(以太網帶寬)、18 TB/S(Aggregate Bandwidth To Tiles)
▲圖6. System Tray
▲圖7. Dojo Host 接口
對應32GB高傳輸頻寬存儲、每秒900TB資料傳輸量,以及每秒可對應50GB資料傳輸量的網路傳輸頻寬的Dojo接口處理器
▲圖8. Dojo的接口處理器
下圖是Dojo的時間進度表。
▲圖9. Dojo 的時間進度
Part 2、Dojo的軟件系統(tǒng)
Dojo系統(tǒng)建立目標:解決很難形成規(guī)模的約束模型。
▲圖10. 軟件的優(yōu)化目標
單一的加速器到前向和后向通道、優(yōu)化器、多個加速器上運行多個副本的流程。更大激活度的模型想運行前向通道時會遇到適合單個加速器的批量大小往往小于批量規(guī)范面的問題;多個加速器上設置同步批量規(guī)范模式。
高密度集成是為了加速模型的計算約束和延遲約束部分;Dojo網格的一個片斷可以被分割出來運行模型(只要分片足夠大);統(tǒng)一的低延遲中的細粒度同步原語加速跨集成邊界的并行性;Tensors是以RAM的形式存儲Chardon,并在各層執(zhí)行時及時復制;張量復制的另一個數(shù)據(jù)傳輸與計算重疊,編譯器也可重新計算層。
▲圖11. 網絡模型
編譯器以模型并行的方式映射,通信階段從節(jié)點計算本地平均值和標準偏差開始;協(xié)調后繼續(xù)并行。從編譯器中提取通信樹;真實硬件的時間節(jié)點,中間輻射減少的值由硬件加速;這個操作在25個Dojo編譯器上只需要5微秒,同樣的操作在24個GPU上需要150微秒。這是對GPU的一個數(shù)量級的改進。
▲圖12. 對比的結果
Dojo是為解決更大的復雜模型而建立的,當前兩個GPU集群的使用模式,
● 自動標注網絡(用于生成地面真相的離線模型)
● 占有率網絡(高算術強度的大型模型)
測試結果:多模系統(tǒng)上對GPU和Dojo進行的測量顯示已經可以超越任何100個使用當前硬件運行的老一代PRMS的性能;A100的吞吐量翻了一番;關鍵的編譯器優(yōu)化達到M100的3倍以上的性能。
目前來看,一個Dojo可以取代6個GPU盒子上的ML計算機,而成本比一個GPU盒子還低,目前一個多月時間來訓練的網絡現(xiàn)在只需要不到一個星期
▲圖13. Dojo的特性對比
小結:這些信息感覺都是為了給全球的工程師的,也是給出了很多的技術發(fā)展的方向,有些像之前開放專利的模式,為了進一步招納年輕的工程師準備的。