• 正文
    • █ 昇騰芯片的演進(jìn)
    • █ 昇騰硬件體系
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

一文看懂華為昇騰芯片

06/05 09:45
887
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

最近這幾年,網(wǎng)上關(guān)于華為昇騰的討論很多,關(guān)注熱度也很高。

我們經(jīng)常說(shuō)的昇騰,其實(shí)有兩層定義。

一層是狹義的定義,特指華為昇騰芯片。

另一層是廣義的定義,是指圍繞昇騰芯片的整個(gè)全棧計(jì)算生態(tài)。既包括硬件,也包括軟件、算法以及應(yīng)用服務(wù)。

來(lái)自《昇騰計(jì)算產(chǎn)業(yè)發(fā)展白皮書(shū)》

今天這篇文章,小棗君主要說(shuō)說(shuō)昇騰芯片和硬件體系。

█ 昇騰芯片的演進(jìn)

昇騰(Ascend)芯片是華為(海思)自研的、專門(mén)面向高性能AI計(jì)算的NPU(神經(jīng)網(wǎng)絡(luò)處理器)芯片。

現(xiàn)在AI浪潮風(fēng)起云涌,到處都在搞AI大模型,還有AI應(yīng)用落地。這些工作涉及到巨量的AI訓(xùn)練和推理計(jì)算需求,就會(huì)用到昇騰這樣的AI芯片。

昇騰的對(duì)標(biāo)對(duì)象,毫無(wú)疑問(wèn)就是英偉達(dá)的GPU系列。

因?yàn)楸娝苤脑?,英偉達(dá)的GPU對(duì)我們禁售(現(xiàn)在連閹割版的H20都不賣(mài)給我們了),所以,昇騰作為國(guó)產(chǎn)AI芯片,就發(fā)揮了重要的替代作用,也迎來(lái)了巨大的市場(chǎng)機(jī)遇。

昇騰芯片是一個(gè)大系列,主要包括昇騰310和昇騰910兩個(gè)子系列。

在2018年的華為全聯(lián)接大會(huì)上,華為輪值CEO徐直軍首次闡述了他們的AI戰(zhàn)略,并正式公布了昇騰910和昇騰310兩款A(yù)I芯片。當(dāng)時(shí),實(shí)體展示的,是昇騰310。

一年后,2019年8月,華為又正式推出了昇騰910。

昇騰310是SoC小芯片,和我們手機(jī)芯片差不多,只有指甲蓋那么大,功耗僅有8W。

它集成了多個(gè)運(yùn)算單元,包括CPU(8個(gè)ARM A55 Core)、AI Core、數(shù)字視覺(jué)預(yù)處理子系統(tǒng)等,主要面向邊緣計(jì)算低功耗終端,以完成AI推理任務(wù)為主。

AI Core是計(jì)算核心,采用了華為自研的達(dá)芬奇(DaVinci)架構(gòu),復(fù)雜執(zhí)行矩陣、向量、標(biāo)量計(jì)算的算子任務(wù)。CPU負(fù)責(zé)非矩陣類復(fù)雜計(jì)算。

昇騰310架構(gòu)

根據(jù)海思官網(wǎng)的披露,昇騰310的FP16算力為8TOPS,INT8算力為16TOPS,采用12nm工藝制造。

昇騰910是大芯片,和我們的掌心差不多大,功耗在300W以上,主要面向云端高性能計(jì)算。它的算力更強(qiáng),既能用于AI推理任務(wù),也能用于AI訓(xùn)練任務(wù)。

華為早期發(fā)布的昇騰910,其實(shí)應(yīng)該算是910A。

當(dāng)時(shí),因?yàn)槿A為還沒(méi)有被完全禁售,所以910A仍然采用了臺(tái)積電的7nm增強(qiáng)版EUV工藝。

芯片內(nèi)建了32顆達(dá)芬奇Max核心(達(dá)芬奇核心分為Max/Lite/Tiny三種,Max最完整),支持混合精度計(jì)算(FP16/FP32/INT8),F(xiàn)P16算力為256TFOPs,最大功耗350W(一開(kāi)始說(shuō)是350W,后來(lái)變成了310W)。

2020年華為被列入實(shí)體清單后,臺(tái)積電那邊的先進(jìn)工藝就用不了。于是,華為與中芯國(guó)際(SMIC)合作,采用他們的N+1工藝(等效7nm),推出了910B。

910B優(yōu)化了架構(gòu)設(shè)計(jì),提升了能效比,芯片尺寸為21.32mm×31.22mm,F(xiàn)P16算力約320TFLOPS,INT8算力約640TOPS。顯存為64GB HBM2e,顯存帶寬400GB/s。

910B也分為B1/B2/B3。910B3引入了HBM3e內(nèi)存,帶寬提升至1.2TB/s,支持萬(wàn)億參數(shù)模型訓(xùn)練。

最近這兩年,華為又推出了昇騰910C。

昇騰910C采用中芯國(guó)際的7nm(N+2)工藝,晶體管數(shù)量達(dá)到530億。

910C采用了類似B200的雙die封裝設(shè)計(jì)(將兩顆獨(dú)立的芯片die分別放置在各自的中介層,再通過(guò)有機(jī)基板將兩個(gè)中介層連接起來(lái)),通過(guò)把兩顆昇騰910B整合到一起,實(shí)現(xiàn)了性能的提升。

這種封裝方式雖然在芯片間互聯(lián)帶寬上可能低于英偉達(dá)的先進(jìn)封裝方案,但具有更低的成本、更高的良率以及更快的量產(chǎn)速度。

業(yè)界估測(cè),910C在FP16精度下的單卡算力能達(dá)到800TFLOPS左右,大概是英偉達(dá)H100芯片(2022年推出)的80%。

值得一提的是,910C的芯片邏輯面積大約比H100多60%。這意味著910C在架構(gòu)效率和設(shè)計(jì)優(yōu)化方面, 與H100依然存在差距。

910C的HBM高帶寬內(nèi)存仍然來(lái)自海外廠商(國(guó)內(nèi)DRAM制造商長(zhǎng)鑫存儲(chǔ)HBM2e相關(guān)技術(shù)還需要再等等)。芯片的整體國(guó)產(chǎn)化比例據(jù)說(shuō)已經(jīng)達(dá)到90%以上。

910C的各方面參數(shù)以及進(jìn)展信息都比較神秘。

根據(jù)網(wǎng)絡(luò)上的不可靠信息,910C于2024年四季度推出樣片,2025年一季度開(kāi)始量產(chǎn),目前已經(jīng)處于大規(guī)模出貨階段,全年銷量大概在70-80萬(wàn)顆。

也有不可靠消息指出,2024年910B的出貨量約四十萬(wàn)張,今年910B出貨量可能與去年持平或略低(約30萬(wàn)張),而910C的出貨量預(yù)計(jì)可能超過(guò)40萬(wàn)張。因此,華為今年910B+910C的整體出貨量可能是70-100萬(wàn)張。

出貨量和產(chǎn)能也有很大關(guān)系。中芯國(guó)際N+2工藝良率去年只有20%,今年據(jù)說(shuō)已經(jīng)達(dá)到40-50%,分配給910C的產(chǎn)能貌似是2.6萬(wàn)片晶圓/月(數(shù)據(jù)不靠譜,僅供參考,與我無(wú)關(guān))。

價(jià)格方面,910B的均價(jià)據(jù)說(shuō)大約是11萬(wàn)/片,910C可能是18-20萬(wàn)/片。網(wǎng)上很多文章說(shuō)910C價(jià)格是1800美元,我覺(jué)得不靠譜。相比之下,英偉達(dá)H100的市場(chǎng)價(jià)格,大約是2.5-3萬(wàn)美元/張。

值得一提的是,華為前段時(shí)間推出的CloudMatrix 384超節(jié)點(diǎn),由384顆昇騰910C芯片構(gòu)建,系統(tǒng)性能比英偉達(dá)的GB200 NVL72更強(qiáng)。

這屬于典型的“群毆”模式。雖然單芯片的性能打不過(guò),但通過(guò)系統(tǒng)層面的創(chuàng)新,組成更大規(guī)模的集群,也能一定程度彌補(bǔ)差距,滿足算力需求。

在連接方面,需要提一下華為自研的HCCS高速互連接口。

昇騰910集成了HCCS、PCIe 4.0和RoCE v2接口,可以靈活高效地實(shí)現(xiàn)橫向擴(kuò)展(Scale Out)和縱向擴(kuò)展(Scale Up)。

HCCS對(duì)標(biāo)的是英偉達(dá)的NVLINK,能夠給內(nèi)核、設(shè)備、集群提供系統(tǒng)內(nèi)存的一致訪問(wèn)。在單一鏈路的單向/雙向互聯(lián)帶寬上,HCCS有顯著優(yōu)勢(shì),可以有效提升多個(gè)Al芯片協(xié)同訓(xùn)練的能力。

910C之后,據(jù)說(shuō)還有910D,采用5nm制程,4Die封裝,支持FP8。今年5-6月份回片,預(yù)期2026Q2-Q3大規(guī)模量產(chǎn)。這個(gè)消息的來(lái)源不可靠,同樣僅供參考。

再往后,華為可能就會(huì)推出昇騰920系列,采用下一代工藝,更先進(jìn)制程,努力縮小和英偉達(dá)的差距。

哦,對(duì)了,差點(diǎn)忘了說(shuō),華為除了昇騰310和910之外,其實(shí)還有昇騰610。

昇騰610也稱為MDC610,是智能駕駛芯片,用于華為自己的智能駕駛平臺(tái)(MDC)。根據(jù)資料顯示,昇騰610采用了7nm制程,AI算力達(dá)到200TOPS@INT8或100TFLOPS@FP16,目前已經(jīng)實(shí)現(xiàn)量產(chǎn)。

█ 昇騰硬件體系

基于昇騰芯片,華為開(kāi)發(fā)了AI算力板卡、服務(wù)器、集群等一系列硬件產(chǎn)品,如下圖所示:


這些硬件覆蓋了邊緣推理、云端推理、云端訓(xùn)練三大場(chǎng)景,可以滿足不同行業(yè)用戶的AI計(jì)算需求。

Atlas 200I DK A2,是面向開(kāi)發(fā)者的高性能AI開(kāi)發(fā)套件,集成了昇騰310芯片,內(nèi)置2個(gè)Al core,可支持128位寬的LPDDR4X,最大算力為22TOPS。

Atlas 300T訓(xùn)練卡,基于昇騰910芯片,集成32個(gè)達(dá)芬奇AI核+16個(gè)TaiShan核,能夠提供280TFLOPS FP16 算力,并集成了一枚100GE RoCE v2網(wǎng)卡,支持PCIe 4.0和1*100G RoCE高速接口。內(nèi)存規(guī)格方面,包括32GB的HBM和16GB的DDR4。

Atlas 300T A2訓(xùn)練卡,強(qiáng)化了高速接口和對(duì)PCIe 5.0的支持,集成20個(gè)AI 核、8個(gè)CPU核、1*200GE RoCE,提供280TFLOPS FP16 算力。

Atlas 300I推理卡,采用了4個(gè)昇騰310,可以實(shí)現(xiàn)快速高效的推理計(jì)算、圖像識(shí)別及視頻處理等工作,支持多種規(guī)格的H.264、H.265視頻編解碼。

Atlas 300I Pro推理卡,采用24GB LPDDR4X,單卡最大提供140TOPS INT8 算力。

Atlas 300I Duo推理卡,采用48GB LPDDR4X,總帶寬 408GB/s,從表觀上看是兩顆昇騰310的組合產(chǎn)品,單卡最大提供280TOPS INT8 算力。

Atlas 500 A2智能小站,是面向邊緣應(yīng)用的產(chǎn)品。

Atlas 800訓(xùn)練服務(wù)器,采用了8顆昇騰910(NPU)+4顆鯤鵬920(CPU),廣泛應(yīng)用于深度學(xué)習(xí)模型開(kāi)發(fā)和訓(xùn)練,

Atlas 800推理服務(wù)器,最大可支持8個(gè)Atlas 300l推理卡,廣泛應(yīng)用于數(shù)據(jù)中心側(cè)的AI推理場(chǎng)景。

Atlas 900是Al智算集群,包括了數(shù)千顆昇騰芯片,總算力達(dá)到256~1024P FLOPS@FP16,相當(dāng)于50萬(wàn)臺(tái)PC的計(jì)算能力。

Atlas 900集群由Atlas 900 PoD集群基礎(chǔ)單元組成。每個(gè)單元就是一個(gè)機(jī)柜,搭載超了32顆鯤鵬920,47U高度可最大提供20.4PFLOPS@FP16的算力。機(jī)柜采用液冷散熱,最大功耗為46KW。

好啦,以上就是關(guān)于華為昇騰硬件體系的全部介紹。

歡迎糾錯(cuò),也歡迎補(bǔ)充更多信息!謝謝!

參考資料:

1、《昇騰計(jì)算產(chǎn)業(yè)發(fā)展白皮書(shū)》,華為&信通院;

2、《昇騰發(fā)力鑄造國(guó)產(chǎn)算力基石》,國(guó)投證券;

3、《昇騰萬(wàn)里,力算未來(lái)》,華安證券;

4、《華為昇騰:國(guó)產(chǎn) AI 算力“扛旗者”》,民生證券;

5、《華為昇騰服務(wù)器研究框架》,浙商證券;

6、《“鯤鵬”展翅,“昇騰”萬(wàn)里》,東莞證券;

7、科技分析師Lennart Heim (@ohlennart) 在X平臺(tái)發(fā)布的分析文章

8、《華為發(fā)布全球算力最強(qiáng) AI 處理器,達(dá)芬奇架構(gòu)巨無(wú)霸芯片昇騰 910 問(wèn)世!》,新智元;

9、《解讀神秘的華為昇騰910》,周博洋,知乎;

10、華為官網(wǎng)、華為云社區(qū)。

華為

華為

華為創(chuàng)立于1987年,是全球領(lǐng)先的ICT(信息與通信)基礎(chǔ)設(shè)施和智能終端提供商。目前華為約有19.7萬(wàn)員工,業(yè)務(wù)遍及170多個(gè)國(guó)家和地區(qū),服務(wù)全球30多億人口。華為致力于把數(shù)字世界帶入每個(gè)人、每個(gè)家庭、每個(gè)組織,構(gòu)建萬(wàn)物互聯(lián)的智能世界:讓無(wú)處不在的聯(lián)接,成為人人平等的權(quán)利,成為智能世界的前提和基礎(chǔ);為世界提供最強(qiáng)算力,讓云無(wú)處不在,讓智能無(wú)所不及;所有的行業(yè)和組織,因強(qiáng)大的數(shù)字平臺(tái)而變得敏捷、高效、生機(jī)勃勃;通過(guò)AI重新定義體驗(yàn),讓消費(fèi)者在家居、出行、辦公、影音娛樂(lè)、運(yùn)動(dòng)健康等全場(chǎng)景獲得極致的個(gè)性化智慧體驗(yàn)。

華為創(chuàng)立于1987年,是全球領(lǐng)先的ICT(信息與通信)基礎(chǔ)設(shè)施和智能終端提供商。目前華為約有19.7萬(wàn)員工,業(yè)務(wù)遍及170多個(gè)國(guó)家和地區(qū),服務(wù)全球30多億人口。華為致力于把數(shù)字世界帶入每個(gè)人、每個(gè)家庭、每個(gè)組織,構(gòu)建萬(wàn)物互聯(lián)的智能世界:讓無(wú)處不在的聯(lián)接,成為人人平等的權(quán)利,成為智能世界的前提和基礎(chǔ);為世界提供最強(qiáng)算力,讓云無(wú)處不在,讓智能無(wú)所不及;所有的行業(yè)和組織,因強(qiáng)大的數(shù)字平臺(tái)而變得敏捷、高效、生機(jī)勃勃;通過(guò)AI重新定義體驗(yàn),讓消費(fèi)者在家居、出行、辦公、影音娛樂(lè)、運(yùn)動(dòng)健康等全場(chǎng)景獲得極致的個(gè)性化智慧體驗(yàn)。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫(xiě)文章/發(fā)需求
立即登錄

通信行業(yè)知名新媒體鮮棗課堂創(chuàng)始人,通信行業(yè)資深專家、行業(yè)分析師、自媒體作者,《智聯(lián)天下:移動(dòng)通信改變中國(guó)》叢書(shū)作者。通信行業(yè)13年工作經(jīng)驗(yàn),曾長(zhǎng)期任職于中興通訊股份有限公司,從事2/3/4G及5G相關(guān)技術(shù)領(lǐng)域方面的研究,曾擔(dān)任中興通訊核心網(wǎng)產(chǎn)品線產(chǎn)品經(jīng)理、能力提升總監(jiān)、中興通訊學(xué)院二級(jí)講師、中興通訊高級(jí)主任工程師,擁有豐富的行業(yè)經(jīng)驗(yàn)和積累。