最近這幾年,網(wǎng)上關(guān)于華為昇騰的討論很多,關(guān)注熱度也很高。
我們經(jīng)常說(shuō)的昇騰,其實(shí)有兩層定義。
一層是狹義的定義,特指華為昇騰芯片。
另一層是廣義的定義,是指圍繞昇騰芯片的整個(gè)全棧計(jì)算生態(tài)。既包括硬件,也包括軟件、算法以及應(yīng)用服務(wù)。
來(lái)自《昇騰計(jì)算產(chǎn)業(yè)發(fā)展白皮書(shū)》
今天這篇文章,小棗君主要說(shuō)說(shuō)昇騰芯片和硬件體系。
█ 昇騰芯片的演進(jìn)
昇騰(Ascend)芯片是華為(海思)自研的、專門(mén)面向高性能AI計(jì)算的NPU(神經(jīng)網(wǎng)絡(luò)處理器)芯片。
現(xiàn)在AI浪潮風(fēng)起云涌,到處都在搞AI大模型,還有AI應(yīng)用落地。這些工作涉及到巨量的AI訓(xùn)練和推理計(jì)算需求,就會(huì)用到昇騰這樣的AI芯片。
昇騰的對(duì)標(biāo)對(duì)象,毫無(wú)疑問(wèn)就是英偉達(dá)的GPU系列。
因?yàn)楸娝苤脑?,英偉達(dá)的GPU對(duì)我們禁售(現(xiàn)在連閹割版的H20都不賣(mài)給我們了),所以,昇騰作為國(guó)產(chǎn)AI芯片,就發(fā)揮了重要的替代作用,也迎來(lái)了巨大的市場(chǎng)機(jī)遇。
昇騰芯片是一個(gè)大系列,主要包括昇騰310和昇騰910兩個(gè)子系列。
在2018年的華為全聯(lián)接大會(huì)上,華為輪值CEO徐直軍首次闡述了他們的AI戰(zhàn)略,并正式公布了昇騰910和昇騰310兩款A(yù)I芯片。當(dāng)時(shí),實(shí)體展示的,是昇騰310。
一年后,2019年8月,華為又正式推出了昇騰910。
昇騰310是SoC小芯片,和我們手機(jī)芯片差不多,只有指甲蓋那么大,功耗僅有8W。
它集成了多個(gè)運(yùn)算單元,包括CPU(8個(gè)ARM A55 Core)、AI Core、數(shù)字視覺(jué)預(yù)處理子系統(tǒng)等,主要面向邊緣計(jì)算與低功耗終端,以完成AI推理任務(wù)為主。
AI Core是計(jì)算核心,采用了華為自研的達(dá)芬奇(DaVinci)架構(gòu),復(fù)雜執(zhí)行矩陣、向量、標(biāo)量計(jì)算的算子任務(wù)。CPU負(fù)責(zé)非矩陣類復(fù)雜計(jì)算。
昇騰310架構(gòu)
根據(jù)海思官網(wǎng)的披露,昇騰310的FP16算力為8TOPS,INT8算力為16TOPS,采用12nm工藝制造。
昇騰910是大芯片,和我們的掌心差不多大,功耗在300W以上,主要面向云端高性能計(jì)算。它的算力更強(qiáng),既能用于AI推理任務(wù),也能用于AI訓(xùn)練任務(wù)。
華為早期發(fā)布的昇騰910,其實(shí)應(yīng)該算是910A。
當(dāng)時(shí),因?yàn)槿A為還沒(méi)有被完全禁售,所以910A仍然采用了臺(tái)積電的7nm增強(qiáng)版EUV工藝。
芯片內(nèi)建了32顆達(dá)芬奇Max核心(達(dá)芬奇核心分為Max/Lite/Tiny三種,Max最完整),支持混合精度計(jì)算(FP16/FP32/INT8),F(xiàn)P16算力為256TFOPs,最大功耗350W(一開(kāi)始說(shuō)是350W,后來(lái)變成了310W)。
2020年華為被列入實(shí)體清單后,臺(tái)積電那邊的先進(jìn)工藝就用不了。于是,華為與中芯國(guó)際(SMIC)合作,采用他們的N+1工藝(等效7nm),推出了910B。
910B優(yōu)化了架構(gòu)設(shè)計(jì),提升了能效比,芯片尺寸為21.32mm×31.22mm,F(xiàn)P16算力約320TFLOPS,INT8算力約640TOPS。顯存為64GB HBM2e,顯存帶寬400GB/s。
910B也分為B1/B2/B3。910B3引入了HBM3e內(nèi)存,帶寬提升至1.2TB/s,支持萬(wàn)億參數(shù)模型訓(xùn)練。
最近這兩年,華為又推出了昇騰910C。
昇騰910C采用中芯國(guó)際的7nm(N+2)工藝,晶體管數(shù)量達(dá)到530億。
910C采用了類似B200的雙die封裝設(shè)計(jì)(將兩顆獨(dú)立的芯片die分別放置在各自的中介層,再通過(guò)有機(jī)基板將兩個(gè)中介層連接起來(lái)),通過(guò)把兩顆昇騰910B整合到一起,實(shí)現(xiàn)了性能的提升。
這種封裝方式雖然在芯片間互聯(lián)帶寬上可能低于英偉達(dá)的先進(jìn)封裝方案,但具有更低的成本、更高的良率以及更快的量產(chǎn)速度。
業(yè)界估測(cè),910C在FP16精度下的單卡算力能達(dá)到800TFLOPS左右,大概是英偉達(dá)H100芯片(2022年推出)的80%。
值得一提的是,910C的芯片邏輯面積大約比H100多60%。這意味著910C在架構(gòu)效率和設(shè)計(jì)優(yōu)化方面, 與H100依然存在差距。
910C的HBM高帶寬內(nèi)存仍然來(lái)自海外廠商(國(guó)內(nèi)DRAM制造商長(zhǎng)鑫存儲(chǔ)HBM2e相關(guān)技術(shù)還需要再等等)。芯片的整體國(guó)產(chǎn)化比例據(jù)說(shuō)已經(jīng)達(dá)到90%以上。
910C的各方面參數(shù)以及進(jìn)展信息都比較神秘。
根據(jù)網(wǎng)絡(luò)上的不可靠信息,910C于2024年四季度推出樣片,2025年一季度開(kāi)始量產(chǎn),目前已經(jīng)處于大規(guī)模出貨階段,全年銷量大概在70-80萬(wàn)顆。
也有不可靠消息指出,2024年910B的出貨量約四十萬(wàn)張,今年910B出貨量可能與去年持平或略低(約30萬(wàn)張),而910C的出貨量預(yù)計(jì)可能超過(guò)40萬(wàn)張。因此,華為今年910B+910C的整體出貨量可能是70-100萬(wàn)張。
出貨量和產(chǎn)能也有很大關(guān)系。中芯國(guó)際N+2工藝良率去年只有20%,今年據(jù)說(shuō)已經(jīng)達(dá)到40-50%,分配給910C的產(chǎn)能貌似是2.6萬(wàn)片晶圓/月(數(shù)據(jù)不靠譜,僅供參考,與我無(wú)關(guān))。
價(jià)格方面,910B的均價(jià)據(jù)說(shuō)大約是11萬(wàn)/片,910C可能是18-20萬(wàn)/片。網(wǎng)上很多文章說(shuō)910C價(jià)格是1800美元,我覺(jué)得不靠譜。相比之下,英偉達(dá)H100的市場(chǎng)價(jià)格,大約是2.5-3萬(wàn)美元/張。
值得一提的是,華為前段時(shí)間推出的CloudMatrix 384超節(jié)點(diǎn),由384顆昇騰910C芯片構(gòu)建,系統(tǒng)性能比英偉達(dá)的GB200 NVL72更強(qiáng)。
這屬于典型的“群毆”模式。雖然單芯片的性能打不過(guò),但通過(guò)系統(tǒng)層面的創(chuàng)新,組成更大規(guī)模的集群,也能一定程度彌補(bǔ)差距,滿足算力需求。
在連接方面,需要提一下華為自研的HCCS高速互連接口。
昇騰910集成了HCCS、PCIe 4.0和RoCE v2接口,可以靈活高效地實(shí)現(xiàn)橫向擴(kuò)展(Scale Out)和縱向擴(kuò)展(Scale Up)。
HCCS對(duì)標(biāo)的是英偉達(dá)的NVLINK,能夠給內(nèi)核、設(shè)備、集群提供系統(tǒng)內(nèi)存的一致訪問(wèn)。在單一鏈路的單向/雙向互聯(lián)帶寬上,HCCS有顯著優(yōu)勢(shì),可以有效提升多個(gè)Al芯片協(xié)同訓(xùn)練的能力。
910C之后,據(jù)說(shuō)還有910D,采用5nm制程,4Die封裝,支持FP8。今年5-6月份回片,預(yù)期2026Q2-Q3大規(guī)模量產(chǎn)。這個(gè)消息的來(lái)源不可靠,同樣僅供參考。
再往后,華為可能就會(huì)推出昇騰920系列,采用下一代工藝,更先進(jìn)制程,努力縮小和英偉達(dá)的差距。
哦,對(duì)了,差點(diǎn)忘了說(shuō),華為除了昇騰310和910之外,其實(shí)還有昇騰610。
昇騰610也稱為MDC610,是智能駕駛芯片,用于華為自己的智能駕駛平臺(tái)(MDC)。根據(jù)資料顯示,昇騰610采用了7nm制程,AI算力達(dá)到200TOPS@INT8或100TFLOPS@FP16,目前已經(jīng)實(shí)現(xiàn)量產(chǎn)。
█ 昇騰硬件體系
基于昇騰芯片,華為開(kāi)發(fā)了AI算力板卡、服務(wù)器、集群等一系列硬件產(chǎn)品,如下圖所示:
這些硬件覆蓋了邊緣推理、云端推理、云端訓(xùn)練三大場(chǎng)景,可以滿足不同行業(yè)用戶的AI計(jì)算需求。
Atlas 200I DK A2,是面向開(kāi)發(fā)者的高性能AI開(kāi)發(fā)套件,集成了昇騰310芯片,內(nèi)置2個(gè)Al core,可支持128位寬的LPDDR4X,最大算力為22TOPS。
Atlas 300T訓(xùn)練卡,基于昇騰910芯片,集成32個(gè)達(dá)芬奇AI核+16個(gè)TaiShan核,能夠提供280TFLOPS FP16 算力,并集成了一枚100GE RoCE v2網(wǎng)卡,支持PCIe 4.0和1*100G RoCE高速接口。內(nèi)存規(guī)格方面,包括32GB的HBM和16GB的DDR4。
Atlas 300T A2訓(xùn)練卡,強(qiáng)化了高速接口和對(duì)PCIe 5.0的支持,集成20個(gè)AI 核、8個(gè)CPU核、1*200GE RoCE,提供280TFLOPS FP16 算力。
Atlas 300I推理卡,采用了4個(gè)昇騰310,可以實(shí)現(xiàn)快速高效的推理計(jì)算、圖像識(shí)別及視頻處理等工作,支持多種規(guī)格的H.264、H.265視頻編解碼。
Atlas 300I Pro推理卡,采用24GB LPDDR4X,單卡最大提供140TOPS INT8 算力。
Atlas 300I Duo推理卡,采用48GB LPDDR4X,總帶寬 408GB/s,從表觀上看是兩顆昇騰310的組合產(chǎn)品,單卡最大提供280TOPS INT8 算力。
Atlas 500 A2智能小站,是面向邊緣應(yīng)用的產(chǎn)品。
Atlas 800訓(xùn)練服務(wù)器,采用了8顆昇騰910(NPU)+4顆鯤鵬920(CPU),廣泛應(yīng)用于深度學(xué)習(xí)模型開(kāi)發(fā)和訓(xùn)練,
Atlas 800推理服務(wù)器,最大可支持8個(gè)Atlas 300l推理卡,廣泛應(yīng)用于數(shù)據(jù)中心側(cè)的AI推理場(chǎng)景。
Atlas 900是Al智算集群,包括了數(shù)千顆昇騰芯片,總算力達(dá)到256~1024P FLOPS@FP16,相當(dāng)于50萬(wàn)臺(tái)PC的計(jì)算能力。
Atlas 900集群由Atlas 900 PoD集群基礎(chǔ)單元組成。每個(gè)單元就是一個(gè)機(jī)柜,搭載超了32顆鯤鵬920,47U高度可最大提供20.4PFLOPS@FP16的算力。機(jī)柜采用液冷散熱,最大功耗為46KW。
好啦,以上就是關(guān)于華為昇騰硬件體系的全部介紹。
歡迎糾錯(cuò),也歡迎補(bǔ)充更多信息!謝謝!
參考資料:
1、《昇騰計(jì)算產(chǎn)業(yè)發(fā)展白皮書(shū)》,華為&信通院;
2、《昇騰發(fā)力鑄造國(guó)產(chǎn)算力基石》,國(guó)投證券;
3、《昇騰萬(wàn)里,力算未來(lái)》,華安證券;
4、《華為昇騰:國(guó)產(chǎn) AI 算力“扛旗者”》,民生證券;
5、《華為昇騰服務(wù)器研究框架》,浙商證券;
6、《“鯤鵬”展翅,“昇騰”萬(wàn)里》,東莞證券;
7、科技分析師Lennart Heim (@ohlennart) 在X平臺(tái)發(fā)布的分析文章
8、《華為發(fā)布全球算力最強(qiáng) AI 處理器,達(dá)芬奇架構(gòu)巨無(wú)霸芯片昇騰 910 問(wèn)世!》,新智元;
9、《解讀神秘的華為昇騰910》,周博洋,知乎;
10、華為官網(wǎng)、華為云社區(qū)。