華為憑借其新的 AI 加速器和機架級架構,結合 Ascend 910C 構建了 CloudMatrix 384。這一解決方案可直接與 GB200 NVL72 競爭,并且在某些指標上比英偉達的機架規(guī)模解決方案更為先進。其工程優(yōu)勢體現(xiàn)在系統(tǒng)層面,而非僅僅在芯片層面,在網(wǎng)絡、光學和軟件等層面均有創(chuàng)新。
華為 Ascend 芯片對 SemiAnalysis 來說并不陌生,但在系統(tǒng)比微架構更重要的世界,華為正在挑戰(zhàn) AI 系統(tǒng)性能的極限。雖然存在權衡取舍,但考慮到出口管制和低迷的國內(nèi)收益率,很明顯中國的出口管制存在進一步的漏洞。
雖然 Ascend 芯片可以在?SMIC 制造,但我們注意到這是一款具有HBM(來自韓國),TSMC 的初級晶圓生產(chǎn),并由來自美國、荷蘭和日本的數(shù)百億臺晶圓制造設備,我們深入探討了中國國內(nèi)生產(chǎn)的可能性,什么是激進的繞過出口管制,以及為什么美國政府需要專注于這些關鍵的新領域來限制中國的人工智能能力。
華為在芯片方面落后了一代,但其縱向擴展解決方案可以說比 Nvidia 和 AMD目前在市場上的產(chǎn)品領先一代。那么華為的 CloudMatrix 384 (CM384) 的規(guī)格是什么?
CloudMatrix 384 由 384 個 Ascend 910C 芯片組成,通過多對多拓撲連接。權衡很簡單:昇騰芯片數(shù)量增加了五倍,這足以彌補每個圖形處理器(GPU)性能僅為英偉達布萊克韋爾(Blackwell)芯片三分之一的不足。
完整的 CloudMatrix 系統(tǒng)現(xiàn)在可以提供?300 PFLOP 的密集 BF16 計算,幾乎是 GB200 NVL72 的兩倍。憑借超過 3.6 倍的總內(nèi)存容量以及 2.1 倍的內(nèi)存帶寬優(yōu)勢,華為和中國如今已具備能夠超越英偉達的人工智能系統(tǒng)能力。
而且,CM384 尤其契合中國的優(yōu)勢所在,即國內(nèi)的網(wǎng)絡生產(chǎn)以及可防止網(wǎng)絡故障的基礎設施軟件,并且隨著產(chǎn)量的進一步提升,它具備拓展至更大規(guī)模應用領域的能力。
這里的不足之處在于,它的功耗是 GB200 NVL72 的 4.1 倍,每一次浮點運算(FLOP)的功耗要高出 2.5 倍,每太字節(jié)每秒(TB/s)內(nèi)存帶寬的功耗高出 1.9 倍,每太字節(jié)高帶寬內(nèi)存(HBM)容量的功耗高出 1.2 倍。
功耗方面的這些不足雖值得關注,但在中國并非一個限制因素。
中國不存在電力限制,只存在芯片限制
西方常見的說法是人工智能受電力限制,但在中國,情況恰恰相反。過去十年里,西方一直在將主要以煤炭為基礎的電力基礎設施轉(zhuǎn)向更環(huán)保的天然氣以及可再生能源發(fā)電,并且人均能源使用效率也有所提高。而在中國,生活水平的提升以及持續(xù)的大規(guī)模投資意味著巨大的電力生產(chǎn)需求。
其中大部分能源依靠煤炭提供,但中國同時擁有全球最大的太陽能、水能、風能裝機規(guī)模,并且如今在核能部署方面處于領先地位。美國只是維持著 20 世紀 70 年代部署的核能規(guī)模。簡而言之,對美國能源電網(wǎng)進行升級并增加其容量,就像是失去了力量一般停滯不前,而在中國,自 2011 年,也就是大約過去十年間,新增的電網(wǎng)容量相當于整個美國電網(wǎng)的規(guī)模。
如果因相對電力充足而不存在電力限制的話,那么放棄對功率密度的考量而擴大規(guī)模,包括在設計中納入光學元素,就是合理的做法。CM384 的設計甚至考慮到了機架之外的系統(tǒng)層面限制因素,而且我們認為,限制中國人工智能發(fā)展雄心的并非僅僅是相對電力供應情況。我們認為華為的解決方案有多種繼續(xù)擴大規(guī)模的途徑。
中國能生產(chǎn)多少昇騰 910C 和CloudMatrix 384?
一個常見的誤解是認為華為的 910C 是在中國制造的。它完全是由中國自主設計的,但中國在很大程度上仍然依賴國外生產(chǎn)。無論是三星的高帶寬內(nèi)存(HBM)、臺積電的晶圓,還是來自美國、荷蘭和日本的設備,都對國外產(chǎn)業(yè)有著很大的依賴。
雖然中芯國際是中國最大的芯片代工廠,也確實擁有 7 納米制程工藝,但絕大多數(shù)的昇騰 910B 和 910C 都是采用臺積電的 7 納米制程生產(chǎn)的。事實上,美國政府、技術洞察(TechInsights)等機構已經(jīng)獲取了昇騰 910B 和 910C,并且每一個產(chǎn)品用的都是臺積電的芯片。華為曾通過另一家公司算能(Sophgo)購買了約 5 億美元的 7 納米晶圓,以此來規(guī)避針對臺積電的制裁措施。
臺積電因公然違反制裁規(guī)定而被罰款 10 億美元,罰款金額僅為其獲利的兩倍。有傳言稱,華為仍通過另一家第三方公司從臺積電獲得晶圓,但我們無法證實這一傳言。
華為的高帶寬內(nèi)存(HBM)獲取情況
對國外前沿技術的依賴是這里需要考慮的部分因素,但中國對高帶寬內(nèi)存(HBM)的依賴程度更高。長鑫存儲(CXMT)距離實現(xiàn)可觀產(chǎn)量的量產(chǎn)仍有一年時間,所以中國還無法可靠地制造這種產(chǎn)品。幸運的是,三星伸出了援手,它一直是向中國供應高帶寬內(nèi)存(HBM)的頭號供應商,借此華為得以在高帶寬內(nèi)存(HBM)禁令出臺前總共儲備了 1300 萬顆高帶寬內(nèi)存(HBM)堆疊體,這些堆疊體可用于 160 萬個昇騰 910C 芯片封裝。
此外,這種被禁的高帶寬內(nèi)存(HBM)仍在被轉(zhuǎn)出口到中國。高帶寬內(nèi)存(HBM)出口禁令針對的是未加工的高帶寬內(nèi)存(HBM)封裝產(chǎn)品。只要芯片搭載的高帶寬內(nèi)存(HBM)未超出每秒浮點運算次數(shù)(FLOPS)相關規(guī)定,帶有高帶寬內(nèi)存(HBM)的芯片仍可發(fā)貨??苼嗠娮樱–oAsia Electronics)是三星在大中華區(qū)的高帶寬內(nèi)存(HBM)獨家經(jīng)銷商,他們一直在向?qū)S?a class="article-link" target="_blank" href="/tag/%E9%9B%86%E6%88%90%E7%94%B5%E8%B7%AF/">集成電路(ASIC)設計服務公司法拉第(Faraday)運送 HBM2E 產(chǎn)品,而法拉第會讓矽品精密工業(yè)股份有限公司(SPIL)將其與廉價的 16 納米邏輯芯片一同進行 “封裝”。
然后,法拉第會將這種系統(tǒng)級封裝產(chǎn)品運往中國,從技術層面來說這是允許的,但中國企業(yè)隨后可以通過拆焊的方式回收高帶寬內(nèi)存(HBM)。我們認為他們采用了一些技術,使得從封裝中提取高帶寬內(nèi)存(HBM)變得非常容易,比如使用熔點很低的低溫焊料凸塊,所以當我們說 “封裝” 的時候,是從最寬泛的意義上來說的。
中國國內(nèi)代工廠仍可加速發(fā)展
國外生產(chǎn)仍有需求,但中國國內(nèi)半導體供應鏈能力已迅速提升,且仍被低估。我們一直在不斷對中芯國際(SMIC)和長江存儲(CXMT)的制造能力發(fā)出警示。良率和產(chǎn)量仍是問題,但關鍵在于從長遠來看中國的圖形處理器(GPU)生產(chǎn)加速會帶來怎樣的情況。
中芯國際和長江存儲都已收到價值數(shù)百億美元的設備,而且盡管面臨制裁,它們?nèi)詮膰猥@得大量獨家供應的化學品及材料。
中芯國際正在上海、深圳和北京擴充先進制程產(chǎn)能。今年其月產(chǎn)能將接近 5 萬片晶圓,而且由于能持續(xù)獲得國外設備以及缺乏有效的制裁及執(zhí)行力度,他們還在繼續(xù)擴大產(chǎn)能。如果其良率得到提升,在華為昇騰 910C 芯片封裝方面就能達到可觀的數(shù)量。
雖然臺積電在 2024 年和 2025 年已提供 290 萬個芯片,足以用于 80 萬個昇騰 910B 芯片以及 105 萬個昇騰 910C 芯片的生產(chǎn),但如果高帶寬內(nèi)存(HBM)、晶圓制造設備、設備維修服務以及光刻膠等化學材料沒有得到有效管控,中芯國際的產(chǎn)量就有大幅增長的潛力。
CloudMatrix 384 系統(tǒng)架構
接下來,讓我們深入了解云CloudMatrix ?384 架構、縱向擴展網(wǎng)絡、橫向擴展網(wǎng)絡、功耗預算以及成本。
一整套云矩陣系統(tǒng)分布在 16 個機架上,12 個計算機架中的每個機架都包含 32 個圖形處理器(GPU)。在這 16 個機架的中間是 4 個縱向擴展交換機機架。為了擴大規(guī)模,華為正在跨多個機架進行縱向擴展,為此,華為不得不使用光纖。像華為這樣在全互聯(lián)的縱向擴展中達到數(shù)百個 GPU 的規(guī)模并非易事。
與 DGX H100 NVL256 “Ranger” 的相似之處
早在 2022 年,Nvidia 就發(fā)布了 DGX H100 NVL256“Ranger”平臺,但決定不將其投入生產(chǎn),因為它非常昂貴、耗電且由于所需的所有光收發(fā)器和兩層網(wǎng)絡而不可靠。CloudMatrix Pod 需要一個令人難以置信的 6,912 個 400G LPO 收發(fā)器進行聯(lián)網(wǎng),其中絕大多數(shù)用于縱向擴展網(wǎng)絡。