• 正文
  • 推薦器件
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

英偉達、高通、特斯拉、Mobileye芯片真實算力大比拼

2023/08/09
3381
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

AI運算最關鍵之處是存儲而非AI處理器本身,AI運算90%的功耗和延遲都來自存儲或者說都來自數(shù)據(jù)的搬運。90%的工況下,AI處理器都在等待存儲系統(tǒng)搬運數(shù)據(jù),而運算系統(tǒng)所需要的時間幾乎是可以忽略的,所以存儲系統(tǒng)的好壞實際決定了真實的算力大小,其中存儲帶寬基本可以等同于存儲系統(tǒng)的好壞,也基本等同真實算力的高低。在Transformer時代,模型參數(shù)至少10億以上,模型至少1GB大小,存儲帶寬也決定了能不能運行Transformer。此外,存儲還決定了功耗,根據(jù)英特爾的研究表明,AI芯片(加速器)當半導體工藝達到 7nm 時,數(shù)據(jù)搬運功耗高達 35pJ/bit,占總功耗的63.7%。

常見芯片存儲帶寬統(tǒng)計

上表中單芯片最強的是AMD的MI300X,英偉達的H100 NVL是雙系統(tǒng)并聯(lián)。Mobileye的EyeQ5墊底,主要是因為其是2016年左右設計的,當時LPDDR4X的標準還未出臺。數(shù)據(jù)中心或者說服務器級別的存儲帶寬有壓倒性的優(yōu)勢,同樣成本也是極高,現(xiàn)在HBM3每GB大約30-40美元(據(jù)說現(xiàn)在因為AI太火,且HBM3目前是SK hynix獨家供應,產(chǎn)能有限,HBM價格漲了4-5倍,那就是120-200美元,應該不大可能,但是漲一倍還是有可能的)。

以AMD的MI300X為例,單單HBM的成本就達到5760-7680美元,這么高的價格在汽車領域是無法承受的。這也反向證明了存儲帶寬的重要性。HBM不僅帶寬高,而且離運算單元的物理距離相比PCB板上的DRAM更近,存儲到運算單元的傳輸時間就更短。

除了HBM,還有一種辦法就是在芯片內部大量使用昂貴的SRAM,如特斯拉Dojo D1,354個核心440MB的SRAM,每MB的SRAM成本約15-20美元,僅此一項近9000美元。SRAM帶寬大約800GB/s,不過SRAM容量太低,不太適合ChatGPT這樣的大模型。Dojo D1的外圍還是有32GB的HBM,但特斯拉的HBM帶寬只有900GB/s。低帶寬加上Dojo D1近似CPU的架構設計,注定其算力很低,但靈活性極高。

還有一點需要注意,上表中有些是純AI芯片或GPU,類似于顯卡,其內存就是顯存。有些是SoC,其內存是與CPU共享的,共享DRAM自然不如單獨顯存帶寬。對AI芯片或GPU來說,權重模型讀出后就放在顯存里,SoC的話,權重模型讀出后放在共享DRAM里。再有,這些帶寬都是理論帶寬,實際利用效率要看內存控制器物理層的效率,最高能到98%左右,低的話只有約90%。其次,帶寬還因為與計算單元的物理距離再打折扣,芯片內部的SRAM基本可以做到理論帶寬,HBM可能還有5%的縮水,PCB板上的可能有10-15%的縮水。

還有一點LPDDR5的帶寬反而不如LPDDR4X,這是因為LPDDR5更注重速度,主要服務對象是CPU而非AI芯片。

AMD的MI300X在宣傳時特別點出其使用192GB的HBM3(兩側的黑色大方塊就是HBM3,總共8塊,每塊24GB),帶寬高達5.2TB/s,Infinity Fabric存儲(即CPU共享存儲)帶寬也高達896GB/s,并且強調MI300X存儲帶寬是英偉達H100的1.6倍。

為何存儲系統(tǒng)決定了實際算力?

所謂人工智能AI推理部分,其運算量最大的部分是卷積運算,卷積運算分解到最底層就是輸入視頻序列(或語句序列等矩陣)矩陣與訓練好的權重模型矩陣的乘積再累加偏值b。乘積運算所消耗的時間是納秒級甚至皮秒級,典型Transformer的參數(shù)是1GB以上,內存帶寬如果是34GB/s,那么僅每次讀取模型就要消耗29毫秒,讀取的同時還需要寫入,與計算單元的速度相比差了千倍以上。這就是所謂的內存墻,算力數(shù)字游戲毫無意義,出現(xiàn)內存墻的原因是內存的帶寬與后端計算單元的速度嚴重不匹配,而不是馮諾依曼架構特有的,哈佛架構一樣會有;另外,內存的帶寬和速度是完全不同的概念,速度的單位是MHz,比如2133MHz,指內存的響應速度,每秒有2133百萬次響應,也是納秒級。

與個人電腦系統(tǒng)一樣,如今的車載計算系統(tǒng)也有硬盤,訓練好的權重模型存在硬盤即eMMC或UFS里,UFS 4.0版本的接口帶寬是23.2Gbps也就是2.9GB/s,遠低于DRAM的帶寬,連LPDDR3都不如,eMMC就更低了,只有400MB/s。目前電腦硬盤是M.2接口居多,M.2跑PCIe
4.0的話帶寬是64GB/s。所以未來UFS會被M.2 SSD取代。

每次運算的時候,CPU發(fā)出指令,權重模型從UFS中被取出暫存在DRAM中,如果有顯存的話,就放在顯存里,通常顯存比共享DRAM帶寬要高得多,這樣每次運算就無需從UFS中取出,這也是DRAM和顯存存在的意義,它的速度比UFS快太多了。

來源:Winbond

上圖可以看出模型參數(shù)飛速增長,而存儲帶寬增長的異常緩慢。即使在邊緣端,YOLO V7的模型大小也有1.5GB大?。↖NT8),META的語義分割SAM有4GB大小。CNN時代模型參數(shù)一般不超過1000萬,用INT8格式就是大約10MB大小,芯片內部的SRAM內存勉強可以裝下,每MB的SRAM成本大約20-50美元,而Transformer時代,最小都有1GB,即便是特斯拉數(shù)據(jù)中心Dojo D1這樣的芯片其SRAM總容量也不到0.5GB,芯片內部肯定放不下,只能通過外部的內存。

一個系統(tǒng)的存儲帶寬由兩方面決定,一是存儲器本身,二是運算芯片的內存通道數(shù)。以前作者本人都忽略了后者,犯了不少錯誤,向大家致以深深的歉意。內存通道數(shù)部分可以看成是內存位寬,不過也有例外。

?來源:Meta

上圖是Meta(FACEBOOK,F(xiàn)ACEBOOK在AI界僅次于谷歌,領先微軟,CAFFE2和PyTorch僅次于TensorFlow,F(xiàn)AIR也是成果眾多,特斯拉的骨干網(wǎng)RegNet就來自FACEBOOK)的第一顆自研芯片MTIA V1,非常老實地標注102.4TOPS的算力,其采用LPDDR5內存,帶寬176GB/s,內部采用了64GB的SRAM,帶寬800GB/s。其算力較低主要原因是運算頻率太低,僅有800MHz,再有就是外部帶寬僅176GB/s。之所以頻率低可能也是為了對應內存帶寬,內存帶寬不夠,后面頻率再高也沒用。

看存儲帶寬也可以看存儲器的Datasheet,比如特斯拉的第一代FSD用的存儲是LPDDR4,型號是 MT53D512M32D2DS-046 AAT,容量為 16Gb,總共 8 片,I/O 頻率2133MHz。

來源:美光

上面是MT53D512M32D2DS-046 AAT的DATASHEET,這是美光的芯片。美光幾乎壟斷汽車高端DRAM市場,市占率在90%以上,廠家明確指出單die的上限是8.5GB/s(這個已包含了DDR雙通道),特斯拉這顆MT53D512M32D2DS-046 AAT是兩個Die,即17GB/s,加上特斯拉第一代FSD的存儲帶寬是128bit,即雙通道,就是34GB/s,有人認為兩個FSD芯片,應該是68GB/s,不過每個芯片的總線位寬不變,兩個芯片即使用PCIe連接,并不等同于存儲系統(tǒng)增加了帶寬。

來源:英偉達

英偉達官方資料,4個Orin并聯(lián),內存帶寬還是204GB/s。

來源:特斯拉

上圖是特斯拉AI日上展示的視覺架構,注意這僅僅是視覺特征提取與語義分割以及多頭注意力,不包含特斯拉所謂的矢量空間轉換(實際就是NeRF主導的BEV算法,加了道路模型),也不包含決策控制部分,根據(jù)特斯拉的介紹,其決策控制部分是蒙特卡洛樹搜索算法。

這個視覺架構里實際不止一個Transformer,HydraNet的多任務也是用的Transfomer。除了Transfomer,RegNet和BiFPN的權重模型也不會太小,大概有0.5GB大小,如果要流暢地運行,讀取權重模型的速度至少要做到每秒200次,那么存儲帶寬至少得400GB/s以上,600GB/s以上運行起來會比較流暢,第一代FSD的存儲帶寬只有34GB/s,根本做不到,即使翻倍也做不到。

所以特斯拉才在第二代FSD芯片選擇了支持GDDR6,支持GDDR6需要幾個條件,首先是要購買GDDR6物理層的IP;其次是要購買GDDR6的控制器IP;然后是PCB板可能需要增加層數(shù)或者用低介電常數(shù)材料;最后是CPU也要加強。第一代HW3.0即使換上GDDR6也是毫無作用,第一代FSD芯片只支持LPDDR4。需要指出目前沒有車規(guī)級GDDR6,因為GDDR6本來是針對顯卡市場開發(fā)的,沒有考慮車載,特斯拉用的GDDR6是美光提供的D9PZR,當然也沒過車規(guī),它的最低工作溫度下限是零度,而非車規(guī)級的是零下40度,不過特斯拉從來也不在乎車規(guī)。特斯拉不僅用了昂貴的GDDR6,容量相比HW3.0也增加了一倍,達到32GB,數(shù)量達到16片。

GDDR6最高帶寬是672GB/s,也就是384位寬。目前還有GDDR6x,最高1008GB/s,追平HBM2,但由于物理距離遠大于HBM,還是無法與HBM2相比。

?來源:Cadence

想不到吧,存儲第一大廠三星的GDDR6物理層是購買自CADENCE的,另外一家能供應GDDR6物理層的是RAMBUS,RAMBUS的主要收入來自存儲物理層IP,每年也有大概1.4億美元的收入。

隨著權重模型的持續(xù)膨脹,存儲成本會飛速增加,為了真正流暢運行大模型,單單存儲方面就需要增加3000-5000美元的成本,這在汽車領域完全無法想象。

增加存儲帶寬也要加強CPU,這是因為GPU和AI芯片都是協(xié)處理器,也就是Device。CPU才是Host主機,GPU和AI芯片和鼠標鍵盤顯示器打印機一樣都算是外設,任務的分派和調度,數(shù)據(jù)流的控制以及數(shù)據(jù)的讀取和寫入均受CPU控制,上圖就是CPU如何控制GPU工作的流程。數(shù)據(jù)首先是在CPU指令調度下才讀取的,數(shù)據(jù)整形(如果AI芯片或GPU內部有標量運算單元也可以做)后再交給GPU,計算完后再傳輸給CPU寫入內存。某些系統(tǒng)會有DMA(Direct Memory Access, 即直接存儲器訪問)如MCU,DMA是指無需經(jīng)過CPU的直接存儲,但需要經(jīng)過數(shù)據(jù)總線,數(shù)據(jù)總線帶寬未必有內存寬,DMA主要是緩解CPU的工作壓力,因為MCU內部的CPU性能很弱。數(shù)據(jù)中心也有一些基于通訊協(xié)議的DMA,通常只用于數(shù)據(jù)中心的多顯卡系統(tǒng)。

算力數(shù)字是浮云,唐代李白有詩句“總為浮云能蔽日,長安不見使人愁”,明白了存儲帶寬就不愁算力數(shù)字浮云,可以學王安石《登飛來峰》“飛來山上千尋塔,聞說雞鳴見日升。不畏浮云遮望眼,自緣身在最高層”。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
ATXMEGA32A4U-AUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP44, 10 X 10 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ACB, LQFP-44

ECAD模型

下載ECAD模型
$13.97 查看
MK22FX512VMC12 1 NXP Semiconductors RISC MICROCONTROLLER
$9.31 查看
USB2514BI-AEZG-TR 1 SMSC USB Bus Controller, CMOS
$4.43 查看
英偉達

英偉達

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設計業(yè)務,隨著公司技術與業(yè)務發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務、科學研究、制造業(yè)、汽車等領域的計算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設計業(yè)務,隨著公司技術與業(yè)務發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務、科學研究、制造業(yè)、汽車等領域的計算解決方案提供支持。收起

查看更多

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網(wǎng))領域的產(chǎn)業(yè)研究、專項調研、戰(zhàn)略規(guī)劃和投資咨詢服務。