• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

特斯拉Dojo芯片深度揭秘

2021/08/25
849
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

特斯拉AI Day推出Dojo深度學(xué)習(xí)訓(xùn)練用芯片,更準(zhǔn)確地說應(yīng)該是Dojo深度學(xué)習(xí)訓(xùn)練系統(tǒng),讓特斯拉粉絲興奮不已,馬斯克大神地位進(jìn)一步加強(qiáng)。不過大部分人冷眼旁觀,特斯拉在第二天的股票市場上弱于大勢,微漲1.01%,而第二天的納斯達(dá)克指數(shù)漲幅為1.19%,特斯拉粉絲認(rèn)為應(yīng)該被拉下神壇的英偉達(dá)卻大漲5.14%,報(bào)208.16,創(chuàng)上市以來最高值,至少投資界沒人看好特斯拉的訓(xùn)練芯片。

特斯拉Dojo深度學(xué)習(xí)訓(xùn)練用首秀,實(shí)際應(yīng)該是臺(tái)積電InFO_SoW (System-on-Wafer)首秀,臺(tái)積電于2020年6月底在IEEE上發(fā)表論文https://ieeexplore.ieee.org/document/9159219,特斯拉是第二個(gè)使用此設(shè)計(jì)方案的人,第一個(gè)是Cerebras,不過Cerebras的產(chǎn)品9月份才會(huì)正式推出,所以特斯拉算首秀。

圖片來源:互聯(lián)網(wǎng)

目前最強(qiáng)的訓(xùn)練用處理器是英偉達(dá)的A100。性能如下表。

圖片來源:互聯(lián)網(wǎng)

特斯拉Dojo性能如下

圖片來源:互聯(lián)網(wǎng)

TF32是Tensor Float 32的縮寫,在深度學(xué)習(xí)中,其實(shí)我們對浮點(diǎn)數(shù)的表示范圍比較看重,而有效數(shù)字不是那么重要。在這個(gè)前提下,TF直接就把 FP32 中 23 個(gè)分?jǐn)?shù)值截短為 10 bits,而指數(shù)位仍為 8 bits,總長度為 19 (=1 + 8 +10) bits。借助 NVIDIA 開發(fā)的深度學(xué)習(xí)庫,用戶可以無感地使用 TF32 而無需任何額外的操作。底層庫會(huì)自動(dòng)地將 FP32 轉(zhuǎn)換為 TF32 進(jìn)行計(jì)算,并將結(jié)果再轉(zhuǎn)換為 FP32。

Brain Float 16 格式是 Google 在 TensorFlow 中引入的新數(shù)據(jù)類型,其可以認(rèn)為是直接將 FP32 的前16位截取獲得的。至于設(shè)計(jì)思路和上面的 TF32 是一樣的,都是深度學(xué)習(xí)對表示范圍敏感而對精度不敏感。但是 Google 更加暴力,直接將分?jǐn)?shù)值砍到只剩下 7 bits。

訓(xùn)練領(lǐng)域?qū)纫蟾?,因此FP64必不可少,特別在醫(yī)療(模擬心臟)和氣象領(lǐng)域(預(yù)測大西洋颶風(fēng))以及航天領(lǐng)域,汽車領(lǐng)域主要是圖像識別精度要求不高,F(xiàn)P32足夠,甚至近期有人提出FP8就夠了。FP64精度下的性能參數(shù),特斯拉很聰明地不提供,也可能特斯拉的Dojo就不支持FP64精度。英偉達(dá)A100是專業(yè)訓(xùn)練芯片,提供最全的精度模式,包括FP32和TF32。局部性能弱于特斯拉Dojo,但差距很小,在最常用的BF16精度下,英偉達(dá)是比特斯拉強(qiáng)很多的。通常認(rèn)為推理的精度至少要INT8,而特斯拉覺得訓(xùn)練精度CFP8就夠了。英偉達(dá)顯然不會(huì)支持CFP8。

A100有542億個(gè)晶體管,特斯拉Dojo是500億個(gè),英偉達(dá)A100裸晶面積是826平方毫米,特斯拉是645平方毫米,兩者都是7納米,不過英偉達(dá)A100要比特斯拉早上1年多,加上英偉達(dá)的GPU安培架構(gòu)在晶體管密度上天生弱勢(多說幾句,特斯拉晶圓利用效率最高的是2017年的Volta架構(gòu)有95%,安培架構(gòu)只有88%,2012年的開普勒和2016年的帕斯卡都有93%),因此,特斯拉明顯占優(yōu),這也意味著特斯拉的成本更低。不過功耗方面,英偉達(dá)明顯占優(yōu),PCIe版只有250瓦。

圖片來源:互聯(lián)網(wǎng)

實(shí)際這是臺(tái)積電左右互搏,英偉達(dá)使用的是Flip-Chip MCM技術(shù),AMDCPU也是如此,英偉達(dá)自己叫Multi-Instance GPU (MIG) ,A100是最多允許7個(gè),也就是8個(gè)芯片級聯(lián)。特斯拉是InFO_SoW (System-on-Wafer)。InFO_SoW具備壓倒性優(yōu)勢,理論性能是Flip-Chip MCM兩倍以上。且級聯(lián)數(shù)量可達(dá)幾十乃至上百個(gè),臺(tái)積電原型達(dá)到49個(gè),特斯拉的Dojo是25個(gè)。臺(tái)積電的核心優(yōu)勢不是3納米或2納米的先進(jìn)工藝,而是芯片的3D系統(tǒng)級封裝,單憑這一項(xiàng),足以秒殺三星,即便三星量產(chǎn)0.5納米,沒有先進(jìn)封裝的幫助,所有高性能芯片還是95%在臺(tái)積電下單。

對AI來說,存儲(chǔ)器對指令和數(shù)據(jù)的搬運(yùn)(寫入和讀出)的時(shí)間是運(yùn)算單元運(yùn)算所消耗時(shí)間的幾十倍乃至幾百倍。換句話說,很多AI芯片所描述的實(shí)際算力會(huì)因?yàn)榇鎯?chǔ)器的因素降低50%甚至90%。即內(nèi)存墻問題。提高AI處理器最有效的方法是減小運(yùn)算單元與存儲(chǔ)器之間的物理距離。這也是這15年來高性能芯片封裝技術(shù)發(fā)展的主要目標(biāo),這不僅可以提高算力,還能降低功耗減少發(fā)熱。

眾所周知,處理器跟內(nèi)存之間的距離越短,則處理器的運(yùn)算延遲越低。而這也是當(dāng)代的高效能處理器普遍內(nèi)建三級緩存的原因--緩存的容量越大,則處理器需要從內(nèi)存搬移數(shù)據(jù)的機(jī)率越低,整個(gè)系統(tǒng)的效能與功耗也能因而獲得明顯改善。 圖上的線寬5微米是RDL(再分布層) 1-3層情況下的結(jié)果,如果RDL4-6層,線寬會(huì)增加到15/20微米。

圖片來源:互聯(lián)網(wǎng)

特斯拉Dojo核心層,特斯拉為更好系統(tǒng)整合,沒有采用正圓形,而是做了一點(diǎn)修改,類似于八邊形。

圖片來源:互聯(lián)網(wǎng)

SoW是整體冷盤,不像以前的方案,只有一條線,散熱效率大大提升,此外也可以用水冷散熱。

SoW通過了服務(wù)器領(lǐng)域溫度測試標(biāo)準(zhǔn)。圖片來源:互聯(lián)網(wǎng)

圖片來源:互聯(lián)網(wǎng)

優(yōu)點(diǎn)多多,成本和良率也很好,可以使用成熟的InFO工藝,KGD芯片。

圖片來源:互聯(lián)網(wǎng)

不加任何散熱的情況,12英寸晶圓大小最高支持到7千瓦,特斯拉外加散熱器,提高到了15000瓦。

圖片來源:互聯(lián)網(wǎng)

英偉達(dá)的A100,使用2代HBM內(nèi)存,存儲(chǔ)帶寬只有1.6TB/s。特斯拉則大手筆不計(jì)成本,全部采用片上SRAM,帶寬達(dá)到驚人的4TB/s。 特斯拉的垂直模式也比業(yè)界常用的平面模式要強(qiáng)很多,功率密度大大提升。 說回芯片本身的設(shè)計(jì),特斯拉和Cerebras如出一轍,Cerebras比特斯拉還要瘋狂,CerebrasWSE2單芯片有2.6萬億晶體管,是特斯拉的50倍,芯片面積達(dá)46225平方毫米,擁有85萬內(nèi)核,這么大芯片的良率會(huì)非常低,估計(jì)不到10%,估計(jì)單芯片就要50萬美元甚至100萬美元以上。當(dāng)然芯片也是臺(tái)積電制造的,利潤的大部分都?xì)w臺(tái)積電。

圖片來源:互聯(lián)網(wǎng)

Cerebras的稀疏矩陣數(shù)據(jù)流,汽車圖像識別中很大一步矩陣值都是零,大面積的空洞即天空,因此屬于標(biāo)準(zhǔn)的稀疏矩陣,而醫(yī)療、氣象領(lǐng)域則多稠密矩陣。算力方面特斯拉300個(gè)D1芯片,即12個(gè)Dojo單元算力是108PFlops,每個(gè)單元是9PFlops,功率是180千瓦,每瓦PFlops算力是0.6。Cerebras是每個(gè)單元(即CS-1服務(wù)器)含15個(gè)WSE2,算力是23PFlops,功率20千瓦(CS-1是水冷設(shè)計(jì)),每瓦PFlops算力是1.15。不過價(jià)格Cerebras可能是特斯拉的10倍甚至更多。

圖片來源:互聯(lián)網(wǎng)

特斯拉的訓(xùn)練節(jié)點(diǎn)矩陣架構(gòu),跟Cerebras很近似。

特斯拉的垂直運(yùn)算系統(tǒng)非常新穎,算是亮點(diǎn)。核心技術(shù)還是臺(tái)積電掌握,芯片設(shè)計(jì)本身平淡無奇,沒有什么亮點(diǎn)。

特斯拉

特斯拉

Tesla 致力于通過電動(dòng)汽車、太陽能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。

Tesla 致力于通過電動(dòng)汽車、太陽能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網(wǎng))領(lǐng)域的產(chǎn)業(yè)研究、專項(xiàng)調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢服務(wù)。