• 正文
    • 1. 產(chǎn)品概述
    • 2. 技術(shù)規(guī)格
    • 3. 性能表現(xiàn)
    • 4. 軟件生態(tài)
    • 5. 應(yīng)用場(chǎng)景
    • 6. 產(chǎn)品路線圖
    • 7. 技術(shù)優(yōu)勢(shì)總結(jié)
    • 8. 術(shù)語(yǔ)介紹&解釋
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

昇騰910 AI芯片技術(shù)全面概述

7小時(shí)前
319
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

本文所有資料都已上傳至“智能計(jì)算芯知識(shí)”星球。如“《60+份AI Agent技術(shù)報(bào)告合集》”,“《清華大學(xué):DeepSeek報(bào)告13部曲合集》”,“浙江大學(xué):DeepSeek技術(shù)20篇(合集)”,“《300+份DeepSeek技術(shù)報(bào)告合集》”,“《100+份AI芯片技術(shù)修煉合集》”,“800+份重磅ChatGPT專業(yè)報(bào)告”,“《12+份Manus技術(shù)報(bào)告合集》”,加入星球獲取嚴(yán)選精華技術(shù)報(bào)告。

華為昇騰910(Ascend 910)是華為基于自研達(dá)芬奇(Da Vinci)架構(gòu)開發(fā)的高性能AI處理器,采用7nm+ EUV先進(jìn)制程工藝,專為人工智能訓(xùn)練場(chǎng)景設(shè)計(jì)。作為Ascend-Max系列旗艦產(chǎn)品,昇騰910在半精度(FP16)下提供256 Tera-FLOPS算力,整數(shù)精度(INT8)算力高達(dá)512 Tera-OPS,同時(shí)功耗控制在310W,能效比顯著優(yōu)于業(yè)界同類產(chǎn)品。

本文介紹昇騰910的技術(shù)架構(gòu)、關(guān)鍵參數(shù)、性能表現(xiàn)及配套軟件生態(tài),為AI開發(fā)者提供參考。

1. 產(chǎn)品概述

1.1 產(chǎn)品定位

昇騰910是華為全棧全場(chǎng)景AI解決方案的核心算力基礎(chǔ),主要面向:

數(shù)據(jù)中心AI訓(xùn)練場(chǎng)景

大規(guī)模分布式訓(xùn)練系統(tǒng)

高性能計(jì)算(HPC)與深度學(xué)習(xí)融合應(yīng)用

云服務(wù)AI加速平臺(tái)

1.2 關(guān)鍵特性

超高計(jì)算密度:?jiǎn)涡酒?2個(gè)達(dá)芬奇核心,F(xiàn)P16算力256 TFLOPS

卓越能效比:實(shí)測(cè)功耗310W,低于設(shè)計(jì)規(guī)格350W

全場(chǎng)景支持:與MindSpore框架深度協(xié)同,支持端-邊-云統(tǒng)一架構(gòu)

先進(jìn)制程:7nm+ EUV工藝實(shí)現(xiàn)更高晶體管密度

安全可信:內(nèi)置模型保護(hù)機(jī)制,支持隱私計(jì)算

2. 技術(shù)規(guī)格

2.1 硬件參數(shù)

參數(shù)類別 規(guī)格詳情
架構(gòu) 達(dá)芬奇架構(gòu)(Da Vinci)
制程工藝 7nm+ EUV
計(jì)算精度 FP16: 256 TFLOPS / INT8: 512 TOPS
核心數(shù)量 32個(gè)達(dá)芬奇核心
功耗 設(shè)計(jì)值350W,實(shí)測(cè)310W
視頻解碼 128通道全高清(H.264/265)解碼器
互聯(lián)接口 HCCS(240Gbps)、PCIe、RoCE
封裝尺寸 待補(bǔ)充

表:昇騰910關(guān)鍵硬件規(guī)格

2.2 計(jì)算架構(gòu)

昇騰910采用創(chuàng)新的達(dá)芬奇3D Cube架構(gòu),核心計(jì)算單元包括:

3D Cube矩陣乘法單元

單周期完成4096次乘加運(yùn)算

相比CPU/GPU有兩個(gè)數(shù)量級(jí)的提升

32個(gè)Cube引擎并行工作,提供256TFLOPS算力

向量計(jì)算單元(Vector)

支持豐富的定制計(jì)算指令

處理非矩陣類運(yùn)算任務(wù)

覆蓋各種基本計(jì)算類型

標(biāo)量計(jì)算單元(Scalar)

功能相當(dāng)于精簡(jiǎn)CPU核

負(fù)責(zé)程序流控制、分支判斷

處理基礎(chǔ)算術(shù)運(yùn)算

這種異構(gòu)計(jì)算架構(gòu)實(shí)現(xiàn)了計(jì)算任務(wù)的高效分工,使昇騰910能夠自主完成整個(gè)AI訓(xùn)練流程,最小化與Host的交互。

3. 性能表現(xiàn)

3.1 基準(zhǔn)測(cè)試

在典型AI訓(xùn)練任務(wù)中,昇騰910表現(xiàn)出色:

ResNet50訓(xùn)練:與主流訓(xùn)練單卡+TensorFlow相比,性能提升近2倍(圖片處理從965張/秒提升至1802張/秒)

算力效率:實(shí)際算力完全達(dá)到設(shè)計(jì)規(guī)格,功耗低于預(yù)期

計(jì)算密度:遠(yuǎn)超NVIDIA Tesla V100和Google TPU v3

3.2 集群性能

華為基于昇騰910構(gòu)建的Ascend集群

單集群包含1024顆昇騰910

總算力達(dá)到256P(Peta-FLOPS)

大幅超越NVIDIA DGX2和Google TPU集群性能

4. 軟件生態(tài)

4.1 全場(chǎng)景AI框架

昇騰910與華為自研的MindSpore框架深度協(xié)同,提供:

開發(fā)效率提升:核心代碼量減少20%,整體效率提升50%

自動(dòng)微分:采用Source 2 Source方式實(shí)現(xiàn),優(yōu)于傳統(tǒng)圖優(yōu)化方法

分布式訓(xùn)練:自動(dòng)實(shí)現(xiàn)多機(jī)混合并行,無(wú)需手動(dòng)切分模型

隱私保護(hù):通過(guò)梯度/模型信息協(xié)同而非原始數(shù)據(jù)傳遞

4.2 算子庫(kù)與工具鏈

CANN算子庫(kù):提供高性能AI算子,開發(fā)效率提升3倍

TensorEngine:統(tǒng)一DSL接口,支持自動(dòng)算子優(yōu)化與生成

ModelArts機(jī)器學(xué)習(xí)PaaS平臺(tái),日均訓(xùn)練作業(yè)超4000個(gè)

5. 應(yīng)用場(chǎng)景

昇騰910適用于多種AI計(jì)算場(chǎng)景:

大規(guī)模模型訓(xùn)練

支持千億參數(shù)級(jí)模型訓(xùn)練

適合NLP、CV等前沿AI研究

云端AI服務(wù)

華為云EI服務(wù)基礎(chǔ)算力

提供59種AI服務(wù)、159項(xiàng)功能

行業(yè)智能

醫(yī)療影像分析

金融風(fēng)控建模

工業(yè)質(zhì)檢等專業(yè)領(lǐng)域

科學(xué)計(jì)算

分子動(dòng)力學(xué)模擬

氣候預(yù)測(cè)等HPC場(chǎng)景

6. 產(chǎn)品路線圖

1.?第一代昇騰(2018-2020)

昇騰310:面向邊緣推理場(chǎng)景,采用12nm工藝,INT8算力16 TOPS,功耗8W,主打低延遲推理(如攝像頭、車載設(shè)備)。

昇騰910:首款數(shù)據(jù)中心級(jí)訓(xùn)練芯片,7nm工藝,F(xiàn)P16算力256 TFLOPS,功耗310W,支持華為全棧AI生態(tài)(MindSpore、ModelArts)。

2.?第二代昇騰(2021-2023)

昇騰910B:7nm+ EUV工藝優(yōu)化,F(xiàn)P16算力提升至376 TFLOPS,支持更高效的大模型訓(xùn)練,適配華為云昇騰AI云服務(wù)。

昇騰310B:邊緣端升級(jí)版,支持多模態(tài)推理(視覺、語(yǔ)音),集成輕量級(jí)MindSpore Lite框架。

3.?第三代昇騰(2024-2025)

昇騰910C:用于CloudMatrix 384超節(jié)點(diǎn)集群,單節(jié)點(diǎn)集成384顆芯片,支持萬(wàn)億參數(shù)大模型訓(xùn)練,顯存帶寬優(yōu)化至3TB/s以上。

昇騰320:面向邊緣計(jì)算的下一代芯片,5nm工藝,能效比提升50%,支持端-邊-云協(xié)同推理。

4.?未來(lái)規(guī)劃(2026+)

昇騰920:預(yù)計(jì)采用3nm工藝,F(xiàn)P16算力目標(biāo)突破1 PFLOPS,支持FP8精度和動(dòng)態(tài)稀疏計(jì)算,適配MoE架構(gòu)大模型。

2025年推出CloudMatrix 384超節(jié)點(diǎn)集群,基于昇騰910C芯片,單集群算力達(dá)百P級(jí)(Peta-FLOPS),支持30天不間斷訓(xùn)練,故障恢復(fù)時(shí)間<10分鐘;用于DeepSeek等千億級(jí)大模型訓(xùn)練、多模態(tài)長(zhǎng)序列處理。

7. 技術(shù)優(yōu)勢(shì)總結(jié)

算力領(lǐng)先:FP16算力256 TFLOPS,超越同期競(jìng)品50-100%

能效優(yōu)異:310W實(shí)際功耗,能效比達(dá)業(yè)界最佳水平兩倍

架構(gòu)創(chuàng)新:3D Cube設(shè)計(jì)實(shí)現(xiàn)超高計(jì)算密度

全棧協(xié)同:與MindSpore深度優(yōu)化,發(fā)揮硬件最大潛能

場(chǎng)景覆蓋:支持從云端到邊緣的全場(chǎng)景AI部署

8. 術(shù)語(yǔ)介紹&解釋

8.1 術(shù)語(yǔ)表

達(dá)芬奇架構(gòu):華為自研的異構(gòu)AI計(jì)算架構(gòu)

3D Cube:專為矩陣運(yùn)算優(yōu)化的三維計(jì)算單元

MindSpore:華為全場(chǎng)景AI計(jì)算框架

CANN:華為AI算子庫(kù)

8.2 測(cè)試環(huán)境

測(cè)試平臺(tái):華為Atlas 900 AI訓(xùn)練集群

對(duì)比系統(tǒng):NVIDIA DGX-2 with Tesla V100

基準(zhǔn)模型:ResNet50、Transformer等

下載鏈接:

重磅合集

1、《70+篇半導(dǎo)體行業(yè)“研究框架”合集》

2、《56+份智能網(wǎng)卡和DPU合集》

3、《14份半導(dǎo)體“AI的iPhone時(shí)刻”系列合集》

4、《21份走進(jìn)“芯”時(shí)代系列深度報(bào)告合集》

5、《800+份重磅ChatGPT專業(yè)報(bào)告》

6、《92份GPU技術(shù)及白皮書匯總》

7、《11+份AI的裂變時(shí)刻系列報(bào)告》

8、《3+份技術(shù)系列基礎(chǔ)知識(shí)詳解(星球版)》

9、《12+份Manus技術(shù)報(bào)告合集》

10、《100+份AI芯片修煉合集》

11、《60+份AI Agent技術(shù)報(bào)告合集》?

《100+份AI芯片技術(shù)修煉合集》

《300+份DeepSeek技術(shù)報(bào)告合集》

《42篇半導(dǎo)體行業(yè)深度報(bào)告&圖譜(合集)

亞太芯谷科技研究院:2024年AI大算力芯片技術(shù)發(fā)展與產(chǎn)業(yè)趨勢(shì)

SSD閃存技術(shù)基礎(chǔ)知識(shí)全解(知識(shí)星球版)服務(wù)器基礎(chǔ)知識(shí)全解(知識(shí)星球版)存儲(chǔ)系統(tǒng)基礎(chǔ)知識(shí)全解(知識(shí)星球版)2025新技術(shù)前瞻專題系列合集《科技龍頭巡禮專題:華為技術(shù)合集》

本號(hào)資料全部上傳至知識(shí)星球,更多內(nèi)容請(qǐng)登錄智能計(jì)算芯知識(shí)(知識(shí)星球)星球下載全部資料。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄