• 正文
    • 純國產(chǎn)NPU,絲滑跑通準萬億參數(shù)大模型
    • 實驗結果
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

Bye,英偉達!華為NPU,跑出了準萬億參數(shù)大模型

4小時前
242
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

金磊 發(fā)自 凹非寺,量子位 | 公眾號 QbitAI

現(xiàn)在,跑準萬億參數(shù)大模型,可以徹底跟英偉達Say Goodbye了。

完成此舉的,正是華為!

技術報告:arxiv.org/abs/2505.04519

要知道,在此之前,訓練萬億參數(shù)大模型這事,是有諸多“攔路虎”在身上的。

例如負載均衡難、通信開銷大、訓練效率低等等。

而華為盤古團隊(包含諾亞方舟實驗室、華為云等)基于昇騰國產(chǎn)算力平臺,一舉攻破了上述所有的挑戰(zhàn)——

6000+塊昇騰NPU集群上完成了7180億(718B)參數(shù)MoE模型的長期穩(wěn)定訓練,并通過多項突破性系統(tǒng)優(yōu)化技術實現(xiàn)了顯著性能提升。

這些創(chuàng)新大幅提高了訓練效率,支撐了行業(yè)頂尖水平模型的開發(fā)!

不得不說,“國產(chǎn)”二字在大模型硬件上的含金量還在持續(xù)上升。

純國產(chǎn)NPU,絲滑跑通準萬億參數(shù)大模型

拆解華為一系列“黑科技”之前,我們先需要更深入地了解一下訓練超大參數(shù)MoE模型背后的困難。

總體來看,在這條路上有“四大金剛”在嚴陣把守。

首先就是架構參數(shù)優(yōu)化難題,需在眾多參數(shù)組合中探索最優(yōu)配置,設計適配昇騰NPU的大規(guī)模MoE架構,實現(xiàn)計算資源的高效利用。

其次是動態(tài)負載均衡挑戰(zhàn),路由機制需要智能分配任務,避免專家資源分配不均;這種不平衡不僅會因“木桶效應”降低訓練效率,更可能導致模型收斂異常,影響最終性能表現(xiàn)。

還有分布式通信的瓶頸,在近萬億參數(shù)規(guī)模下,token在不同計算節(jié)點間的專家流轉會產(chǎn)生巨大通信開銷,“通信墻”問題成為制約訓練效率的關鍵因素。

最后就是硬件適配復雜度,實現(xiàn)MoE算法與昇騰NPU等專用AI加速器的深度協(xié)同,需要打通算法設計、軟件框架和硬件特性的全棧優(yōu)化,充分釋放硬件計算潛力。

針對這些問題,華為的這份技術報告分別從模型架構、MoE訓練分析、系統(tǒng)優(yōu)化等方面,詳細介紹了其如何見招拆招。

首先就是MoE結構選型與昇騰親和結構優(yōu)化。

團隊先進行先導實驗,確定了細粒度專家加上共享專家這樣的范式。隨后在模型選型的時候,考慮了多個方面的因素。

在計算與訪存親和方面,通過增大模型里的hidden size(隱藏層大小),同時降低激活參數(shù)量,這樣不僅能提升模型的計算量,還可以降低訪存量,提高了模型訓練時對算力的利用率,以及推理時的吞吐量。

在多維并行親和方面,采用數(shù)量為2的指數(shù)級的專家數(shù)量,達成了TP8×EP4超融合并行的方式。

運用TP-extend-EP技術,避免因 TP 切分細粒度專家造成MatMul(矩陣乘法)等算子的效率下降,同時使用分組 AllToAll 通信技術來減少 EP 通信所產(chǎn)生的開銷。

在 DaVinci 架構親和方面,將張量按照256進行對齊處理,使其能完美匹配16×16矩陣計算單元,充分釋放昇騰NPU的算力。

在流水線編排親和方面,采用PP(流水線并行)、VPP(可變流水線并行)、空層等技術,實現(xiàn)PP和VPP的負載均衡,減少計算資源閑置(空泡)的情況。

模型結構仿真方面,團隊根據(jù)硬件的適配特點,對模型參數(shù)的選擇范圍進行了大幅調(diào)整,把原本龐大的參數(shù)搜索空間縮小到了10000個左右。

為了能更準確地知道不同模型的性能極限,團隊開發(fā)了一套專門的建模仿真工具。這個工具很厲害,它把模型結構、運行時采用的策略,還有硬件系統(tǒng),都拆分成了一個個小的參數(shù)。

通過對算子、Block、Layer這些層級的計算、數(shù)據(jù)傳輸和讀取操作進行模擬,就能算出模型從頭到尾的整體性能。經(jīng)過和實際測試數(shù)據(jù)對比,發(fā)現(xiàn)這個仿真工具的準確率能達到85%以上。

團隊用這個建模仿真工具,把所有符合硬件適配要求的參數(shù)組合都測試了一遍,仔細評估它們在訓練和推理時的數(shù)據(jù)處理速度,最后找到了性能相對更好的模型結構,具體情況可以看下面的圖。

接下來,我們再看下MoE訓練的分析。

在訓練MoE模型的時候,和普通的稠密模型相比,有個特別讓人頭疼的問題,就是負載不均衡。

打個比方,就像一群人干活,有的人忙得不可開交,有的人卻閑著沒事干,這樣效率肯定高不了。

為了解決這個問題,科研界從算法角度想了很多辦法,提出了各種各樣的輔助損失函數(shù),這些函數(shù)關注的均衡范圍不太一樣。

比如,早期有專門針對序列級別的均衡輔助損失,還有通義千問提出的DP - Group(也就是全局批次大?。┚廨o助損失。

這些輔助損失函數(shù),就像是給MoE模型里的路由模塊(負責分配任務的部分)定了規(guī)矩,通過不同程度的約束,讓它把任務分配得更均勻一些。具體的約束情況,都整理在下面的表格里了。

Balance BSZ表示用來計算專家選擇頻率的tokens個數(shù)

團隊還研發(fā)出了一種全新的EP組負載均衡損失算法。

和傳統(tǒng)的micro-batch輔助損失相比,它不會過度強求局部任務分配的絕對均衡,避免了“矯枉過正”;跟DP組的均衡損失比起來,它在數(shù)據(jù)傳輸時耗費的資源更少,能節(jié)省不少通信成本。

而且在對專家任務量的約束程度上,它處于兩者之間,是個更折中的方案。

為了驗證這個新算法的效果,團隊在一個總參數(shù)量達200億(20B)的先導MoE模型上,專門做了消融實驗,具體情況如下:

為了應對專家負載不均的“木桶效應”,MoE可以采用drop-and-pad的方式來提升訓練的吞吐。

團隊首先在一個20B的先導MoE上對比了不同專家總數(shù)下drop-and-pad和dropless的性能:

結果顯示,dropless總是優(yōu)于drop-and-pad方案。

并且這種性能的差距會隨著專家數(shù)變多、模型參數(shù)變大而進一步放大。

因此在訓練盤古Ultra MoE時采用了dropless的方案,并重點優(yōu)化了這一策略下的訓練效率。

具體而言,團隊從四個關鍵方向對盤古Ultra MoE 模型進行了全面優(yōu)化,包括改進并行計算策略、優(yōu)化數(shù)據(jù)傳輸效率、提升顯存使用效果,以及讓任務分配更均勻。

在由6000+個昇騰NPU組成的大型計算集群上,模型的算力利用率(MFU,即Model FLOPs Utilization)達到了30.0%?,和優(yōu)化前相比,提升幅度高達58.7%。

團隊用一套能模擬全流程的模型仿真系統(tǒng),反復試驗尋找最佳的并行計算方案。

最終確定的方案是:采用16路流水線并行、8路張量并行、4路專家并行、2路虛擬流水線并行,以及48路數(shù)據(jù)并行。

在專家并行這塊,團隊用了TP拓展EP的策略。

簡單來說,就是讓TP組來劃分專家數(shù)量,這樣做能避免因為TP組拆分專家參數(shù),導致GMM算子在處理小規(guī)模專家數(shù)據(jù)時效率暴跌的問題。

整個系統(tǒng)里,專家組總數(shù)是32組(TP 和 EP 組合計算得出),一共劃分成256個專家。

虛擬流水線并行策略效果特別好,以前訓練時,計算資源閑置(空泡率)的情況占18.98%,用了新策略后,直接降到10.49% 。

同時,通過合理分配MTP層和損失函數(shù)層的任務,把任務分配不均衡導致的負載溢出,控制在5%以內(nèi),大大減少了任務分配不均帶來的負面影響。

為了解決并行擴展中的通信瓶頸,團隊還設計了兩個主要技術。

首先就是Hierarchical EP Communication分級EP通信。

相比機內(nèi)通信,跨機通信帶寬較低。團隊采用分級EP通信,減少跨機通信量。

具體來說,采用跨機Allgather 通信將所有tokens同步到機內(nèi),然后在機內(nèi)對token排序并采用機內(nèi)AlltoAll通信對tokens重新分配。

機內(nèi)通信和機間通信都可以通過前反向通信掩蓋技術掩蓋,從下圖的通信量對比可以看到分級EP通信對跨機通信量減少的效果。

其次是Adaptive Pipe Overlap Mechanism自適應前反向掩蓋策略。

即使采用分級EP通信策略,EP通信的耗時占比仍然很高。前反向的大部分EP通信與計算均具有依賴關系,自然掩蓋策略會暴露大部分EP通信。

如果采用通算融合算子等自掩蓋策略,又不可避免地會降低計算效率。

因此,團隊采用基于VPP調(diào)度的自適應前反向掩蓋策略,實現(xiàn)如下圖流程的前向計算掩蓋反向通信,反向計算掩蓋前向通信。

核心設計包括:利用機間與機內(nèi)通信鏈路帶寬獨立特點實現(xiàn)機內(nèi)通信與機間通信的互相掩蓋,利用算子的有效排布緩解host bound,將專家反向dw計算與dx計算分離做更細粒度的掩蓋。

對顯存進行優(yōu)化時,團隊采用了新的計算方式。

不再使用傳統(tǒng)的全重計算,而是對細粒度模塊,像MLA、Permute和激活函數(shù)進行重新計算,這樣能避免額外的計算消耗。

同時,運用Tensor Swapping技術,把重新計算不太劃算的激活值,先轉移到CPU那邊,等需要反向計算時再提前取回來,讓NPU內(nèi)存得到更高效的利用。

團隊還在研究新的顯存節(jié)省方法,準備把多種優(yōu)化策略組合起來,根據(jù)不同的設備配置,找到最適合的組合,既能提高顯存利用率,又不會降低模型性能。

讓每臺設備上專家處理的任務量(token 數(shù)量)盡量均勻,能大幅提升訓練效率。

為此,團隊設計了一套動態(tài)的設備級負載均衡機制。

首先,規(guī)劃器就像一個“小管家”,通過觀察一段時間內(nèi)專家的工作負載情況,預測未來的任務量,再用貪心算法規(guī)劃出如何重新分配專家,讓設備間的任務更均衡。

然后,執(zhí)行器定期行動,把不同Transformer層的專家參數(shù)和優(yōu)化器狀態(tài)在設備間轉移。通過這種動態(tài)調(diào)整,模型的MFU提高了10%。

除了上面這些,團隊還開發(fā)了一些專門適配昇騰設備的技術,包括主機端優(yōu)化、計算卸載與數(shù)據(jù)共享,以及融合算子。

    算子下發(fā)優(yōu)化:為了解決host端性能瓶頸問題,團隊減少了那些需要頻繁同步操作的算子,避免不必要的等待。同時,使用細粒度CPU綁核技術,讓CPU和NPU配合得更好,任務下發(fā)更順暢。計算卸載與數(shù)據(jù)共享:當遇到NPU處理起來效率低的數(shù)據(jù)計算,或者在TP區(qū)域內(nèi)數(shù)據(jù)傳輸慢的情況,作者把這些不適合NPU的計算從主計算流程中分離出來,交給CPU在數(shù)據(jù)加載時處理。再結合數(shù)據(jù)共享技術,讓同一節(jié)點內(nèi)的計算和數(shù)據(jù)傳輸速度都大大提高。融合算子:除了盤古稠密模型里已有的FlashAttention 和 RMSNorm融合算子,團隊在MoE模型里又加入了 GMMAdd、Permute和Umpermute融合算子。GMMAdd融合算子把GroupedMatMul的反向計算和梯度累加放在一起處理,利用并行和流水線技術減少調(diào)度時間。Permute和Unpermute融合算子整合了多種操作,能更快地讀寫內(nèi)存。

實驗結果

在訓練數(shù)據(jù)集構建過程中,團隊實施嚴格的數(shù)據(jù)質量控制,并著重強調(diào)語料庫的多樣性、復雜性和全面性。

針對長鏈思維樣本引入特殊標記符號對推理軌跡與最終答案進行結構化分隔。

后訓練階段采用指令微調(diào)策略,數(shù)據(jù)涵蓋領域廣泛,包含通用問答、文本生成、語義分類、代碼編程、數(shù)理邏輯推理及工具使用等。

特別將推理與非推理樣本比例設定為3:1,進一步提升推理性能。

實驗表明,盤古Ultra MoE對話版本在多領域均展現(xiàn)出卓越競爭力,在大多數(shù)benchmark上與DeepSeek-R1表現(xiàn)相當。比如通用理解任務(如CLUEWSC 94.8分、MMLU 91.5分)中展現(xiàn)卓越理解力,在數(shù)學推理與代碼生成等高難度測試(如AIME2024 81.3分、MBPP+ 81.2分)中表現(xiàn)優(yōu)異,具備突出的代碼與數(shù)學解題能力。

團隊還對盤古Ultra MoE進行了專家專業(yè)度分析。

在不同任務中,同一網(wǎng)絡層的token會被優(yōu)先路由至不同專家,專家專業(yè)化程度存在顯著任務差異性。

這證實了盤古Ultra MoE已形成顯著的專家差異化,這種特性不僅增強了模型的表達能力,更為其卓越性能提供了關鍵支撐。

盤古Ultra MoE的MoE層輸出由共享專家和路由專家共同貢獻的加權和構成。

因此,保持二者輸出的平衡至關重要。

下圖中展示了路由專家在各網(wǎng)絡層均保持著與共享專家相當?shù)呢暙I強度,這種均衡的協(xié)同作用有效提升了模型的整體表征能力。

團隊還分析了專家的共激活現(xiàn)象,激活分數(shù)越高,說明兩個專家之間的相關性越強。

在下圖中,除少數(shù)例外情況外,這三層中的專家之間并未出現(xiàn)明顯的共激活現(xiàn)象,這反映了盤古Ultra MoE的專家冗余度較低。

以上便是華為國產(chǎn)NPU跑準萬億參數(shù)大模型背后的奧義了。

華為盤古Ultra MoE技術的突破,不僅標志著國產(chǎn)算力平臺在AI大模型訓練領域邁入世界領先行列,更彰顯了中國科技自主創(chuàng)新的強大實力。

它證明了中國企業(yè)在全球AI競賽中已具備從跟跑到并跑,甚至領跑的實力。

未來,隨著技術的持續(xù)迭代與應用場景的拓展,盤古Ultra MoE將為千行百業(yè)的智能化轉型注入強勁動力,助力中國在新一輪科技革命中占據(jù)制高點,為人類科技進步貢獻更多“中國智慧”。

技術報告下載地址:arxiv.org/abs/2505.04519

華為

華為

華為創(chuàng)立于1987年,是全球領先的ICT(信息與通信)基礎設施和智能終端提供商。目前華為約有19.7萬員工,業(yè)務遍及170多個國家和地區(qū),服務全球30多億人口。華為致力于把數(shù)字世界帶入每個人、每個家庭、每個組織,構建萬物互聯(lián)的智能世界:讓無處不在的聯(lián)接,成為人人平等的權利,成為智能世界的前提和基礎;為世界提供最強算力,讓云無處不在,讓智能無所不及;所有的行業(yè)和組織,因強大的數(shù)字平臺而變得敏捷、高效、生機勃勃;通過AI重新定義體驗,讓消費者在家居、出行、辦公、影音娛樂、運動健康等全場景獲得極致的個性化智慧體驗。

華為創(chuàng)立于1987年,是全球領先的ICT(信息與通信)基礎設施和智能終端提供商。目前華為約有19.7萬員工,業(yè)務遍及170多個國家和地區(qū),服務全球30多億人口。華為致力于把數(shù)字世界帶入每個人、每個家庭、每個組織,構建萬物互聯(lián)的智能世界:讓無處不在的聯(lián)接,成為人人平等的權利,成為智能世界的前提和基礎;為世界提供最強算力,讓云無處不在,讓智能無所不及;所有的行業(yè)和組織,因強大的數(shù)字平臺而變得敏捷、高效、生機勃勃;通過AI重新定義體驗,讓消費者在家居、出行、辦公、影音娛樂、運動健康等全場景獲得極致的個性化智慧體驗。收起

查看更多

相關推薦