前段時(shí)間,華為發(fā)布了一款針對(duì)AI智算場(chǎng)景的重磅產(chǎn)品——CloudMatrix384,在行業(yè)內(nèi)外引起了不小的震動(dòng)。
CloudMatrix384是一個(gè)超節(jié)點(diǎn)(Super Node),相當(dāng)于一臺(tái)超級(jí)“服務(wù)器”。它搭載了384顆華為昇騰NPU和192顆鯤鵬CPU,單卡推理吞吐量可以達(dá)到2300 Tokens/s。同時(shí),推理的時(shí)延也得到了極大降低,原來(lái)100ms的增量Token輸出時(shí)延,現(xiàn)在降低到了50ms以下。
CloudMatrix384
輿論普遍認(rèn)為,在目前全球AI算力需求高速增長(zhǎng)的背景下,CloudMatrix384的橫空出世,將徹底打破國(guó)外對(duì)AI算力市場(chǎng)的壟斷,改變中國(guó)乃至全球AI產(chǎn)業(yè)的格局。
小棗君一直想寫(xiě)一篇關(guān)于CloudMatrix384的文章,但苦于官方公開(kāi)的資料太少,遲遲無(wú)法下筆。
現(xiàn)在,機(jī)會(huì)終于來(lái)了。
今天,華為開(kāi)發(fā)者大會(huì)2025在東莞正式開(kāi)幕。在主題演講環(huán)節(jié),華為常務(wù)董事、華為云計(jì)算 CEO張平安宣布,基于CloudMatrix384的昇騰AI云服務(wù)已經(jīng)全面上線(xiàn),提供澎湃算力,供各行各業(yè)客戶(hù)使用。
在演講中,他還透露了更多的產(chǎn)品細(xì)節(jié),進(jìn)一步揭開(kāi)了CloudMatrix384昇騰AI云服務(wù)的神秘面紗。
接下來(lái),小棗君就結(jié)合最新信息,給大家做個(gè)深入解讀。
█?CloudMatrix384的核心設(shè)計(jì)理念
如前面所說(shuō),CloudMatrix384是一個(gè)超節(jié)點(diǎn),也是一個(gè)AI智算集群。
AI智算集群分為兩種模式,一種是Scale Up,另一種是Scale Out。
Scale Up是向上擴(kuò)展(縱向擴(kuò)展),增加單節(jié)點(diǎn)內(nèi)的GPU/NPU算卡數(shù)量。Scale Out是向外擴(kuò)展(橫向擴(kuò)展),增加節(jié)點(diǎn)的數(shù)量。
擁有16卡以上的Scale Up系統(tǒng),就是超節(jié)點(diǎn)。CloudMatrix384擁有384卡,算是目前超節(jié)點(diǎn)中規(guī)模最大的。
那么,CloudMatrix384是不是簡(jiǎn)單地把384個(gè)卡“綁定”在一起,進(jìn)行算力的疊加呢?
答案當(dāng)然是否定的。
CloudMatrix384發(fā)布之后,很多人都只關(guān)心算力的大小,但實(shí)際上,這款產(chǎn)品最大的看點(diǎn),在于它的設(shè)計(jì)理念。
華為在發(fā)布CloudMatrix384時(shí),反復(fù)強(qiáng)調(diào)了三句話(huà),即:“一切可池化”“一切皆對(duì)等”“一切可組合”。
這就是CloudMatrix384的核心設(shè)計(jì)理念??炊诉@三句話(huà),才能真正看懂這款產(chǎn)品。
我先解釋一下這三句話(huà)的基本含義:
一切可池化,指的是在CloudMatrix384中,所有的資源都在資源池里。這個(gè)資源,不僅包括NPU,也包括CPU、內(nèi)存、網(wǎng)絡(luò)。(英偉達(dá)僅實(shí)現(xiàn)了GPU池化。)
一切皆對(duì)等,指的是資源池里的資源不再是主從式關(guān)系,而是對(duì)等關(guān)系。傳統(tǒng)的以CPU為中心的計(jì)算范式,已經(jīng)轉(zhuǎn)變?yōu)楦咝?、更靈活的CPU與NPU等對(duì)等架構(gòu)。
一切可組合,則是指CloudMatrix384中池化的資源,可以根據(jù)不同的任務(wù)需求,像搭積木一樣,進(jìn)行靈活調(diào)配組合。
華為認(rèn)為,在人工智能大爆發(fā)的時(shí)代,單一類(lèi)型的計(jì)算資源,單一節(jié)點(diǎn)的計(jì)算能力、存儲(chǔ)能力,以及配比固定、松散協(xié)同的擴(kuò)展模式,已經(jīng)難以滿(mǎn)足日益復(fù)雜且快速變化的應(yīng)用部署需求。
與其在傳統(tǒng)計(jì)算互聯(lián)構(gòu)架上修修補(bǔ)補(bǔ),不如創(chuàng)建一個(gè)新的架構(gòu)。
CloudMatrix架構(gòu)將NPU、CPU、內(nèi)存、網(wǎng)卡等所有資源完全解耦,形成可以獨(dú)立擴(kuò)展的資源池,實(shí)現(xiàn)“由單算力轉(zhuǎn)向混合算力,由單機(jī)轉(zhuǎn)向集群,由傳統(tǒng)應(yīng)用松散分布轉(zhuǎn)向多樣應(yīng)用緊密融合”,是一個(gè)真正對(duì)等互聯(lián)的超節(jié)點(diǎn)架構(gòu)。
大家看明白了嗎?我總結(jié)一下:
CloudMatrix384,是華為打造的新一代AI云基礎(chǔ)設(shè)施,實(shí)現(xiàn)了所有資源的邏輯解耦和對(duì)等池化,能夠更好地應(yīng)對(duì)不斷增長(zhǎng)的AIGC大模型訓(xùn)推任務(wù)需求。它的核心思想,就是用“對(duì)等互聯(lián)池化”打造“強(qiáng)整體”,以系統(tǒng)化的思維,應(yīng)對(duì)大模型訓(xùn)推帶來(lái)的算力挑戰(zhàn)。
接下來(lái),我們就根據(jù)具體的計(jì)算任務(wù)場(chǎng)景,看看CloudMatrix384是如何實(shí)現(xiàn)算力效率提升的。
█?Scale Up最強(qiáng)超節(jié)點(diǎn)
CloudMatrix384是一個(gè)擁有384個(gè)昇騰NPU的超節(jié)點(diǎn),通過(guò)全新高速網(wǎng)絡(luò)MatrixLink全對(duì)等互聯(lián),變身為一臺(tái)超級(jí)“服務(wù)器”。
這臺(tái)“超級(jí)服務(wù)器”為AI而生,它的架構(gòu)設(shè)計(jì),能夠更好地匹配大模型的訓(xùn)推任務(wù)。
我們舉個(gè)分布式推理技術(shù)的例子。
現(xiàn)在包括DeepSeek在內(nèi)的很多熱門(mén)大模型,都采用了MoE(Mixture of Experts,混合專(zhuān)家)架構(gòu)。整個(gè)模型,包括了多個(gè)專(zhuān)門(mén)的子模型(“專(zhuān)家”),存在大量的專(zhuān)家并行(EP,Expert Paralelism)計(jì)算。
MoE架構(gòu)
CloudMatrix384基于華為云分布式QingTian等技術(shù),達(dá)成了一切可池化。它所提供的超強(qiáng)卡間互聯(lián)能力,能夠讓DeepSeek實(shí)現(xiàn)“一個(gè)專(zhuān)家一張卡”的模式,大幅提升推理任務(wù)的效率。
原因如下:
AIGC大模型推理過(guò)程包括了Prefill(預(yù)填充)和Decode(解碼)兩個(gè)階段,大模型推理要實(shí)現(xiàn)Prefill階段的"高吞吐"和Decode階段的的"低時(shí)延"。
Prefill階段和Decode階段
DeepSeek有256個(gè)固定專(zhuān)家+32個(gè)共享專(zhuān)家(288張卡),加上一些冗余卡(應(yīng)對(duì)負(fù)載不均衡的情況),一共320張卡,用于Decode。Prefill大概會(huì)用到32張卡。加在一起,就是352張卡。
CloudMatrix384的384卡可以“一卡一專(zhuān)家”地完美契合這352張卡的計(jì)算任務(wù),基于卡間互聯(lián)能力,能夠?qū)崿F(xiàn)all to all(Full mesh)通信。值得注意的是,它不是單純疊卡的“大力出奇跡”,而是通過(guò)技術(shù)調(diào)優(yōu)來(lái)達(dá)成“高吞吐”和“低時(shí)延”的目標(biāo)。
我們也可以用更簡(jiǎn)單的方式來(lái)理解——
通過(guò)將計(jì)算任務(wù)在跨節(jié)點(diǎn)的專(zhuān)家間進(jìn)行分布式處理,使得單次推理的批量大?。╞atch size)得以大幅增加。更大的批量處理能力可充分釋放并行計(jì)算潛力,減少單位計(jì)算的調(diào)度開(kāi)銷(xiāo),從而實(shí)現(xiàn)整體吞吐量的提升。
CloudMatrix384的池化算力資源,還可以更靈活地分工完成這些工作。分工肯定會(huì)帶來(lái)很多溝通成本(通信開(kāi)銷(xiāo)),而CloudMatrix384的卡間通信能力,能夠hold得住這些成本。再舉一個(gè)池化架構(gòu)幫助降低系統(tǒng)時(shí)延的例子:
大模型推理任務(wù)涉及到了一個(gè)KV Cache(鍵值緩存)技術(shù)。Prefill生成KV Cache,Decode使用和更新KV Cache。KV Cache會(huì)不斷增長(zhǎng),占用更多顯存。
KV Cache
前面說(shuō)了,CloudMatrix384的池化不僅包括算卡,也包括內(nèi)存。它創(chuàng)建的解耦式共享內(nèi)存池(把所有的CPU高速內(nèi)存湊一塊),可以保存KV Cache,讓Prefill和Decode任務(wù)更快速、更均衡地訪(fǎng)問(wèn)KV Cache,降低系統(tǒng)延遲。
根據(jù)上面這些例子,大家可以看出,CloudMatrix384的強(qiáng)大卡間通信能力和池化設(shè)計(jì),是它實(shí)現(xiàn)高性能、高效率的關(guān)鍵因素。
在這些buff的加持下,CloudMatrix384不僅單節(jié)點(diǎn)算力很高(300Pflops),它的單卡計(jì)算和通信效率也非常驚人。CloudMatrix384的節(jié)點(diǎn)內(nèi)互聯(lián)帶寬高達(dá)2.8Tbps,遠(yuǎn)高于英偉達(dá)的1.8Tbps。
這里還要補(bǔ)充說(shuō)明一下:CloudMatrix384的強(qiáng)大卡間通信能力,得益于華為云Matrixlink親和性智能調(diào)度、重構(gòu)網(wǎng)絡(luò)協(xié)議等技術(shù)能力,大幅提升了帶寬,降低了時(shí)延。
這些技術(shù)創(chuàng)新共同發(fā)揮作用,最終能將整體all to all通信效率提升30%。
█?Scale Out最大集群
我們剛才介紹了CloudMatrix384的Scale Up能力。接下來(lái),我們看看Scale Out。
人工智能發(fā)展到現(xiàn)在,已經(jīng)邁入了萬(wàn)億參數(shù)時(shí)代。如此龐大規(guī)模參數(shù)的模型訓(xùn)練,動(dòng)輒需要萬(wàn)卡、十萬(wàn)卡。
CloudMatrix384的Scale Out能力同樣很強(qiáng)。將432個(gè)CloudMatrix384進(jìn)行級(jí)聯(lián),可以形成一個(gè)165888卡(384×432)的超級(jí)AI集群,提供10萬(wàn)PFlops的驚人算力。
CloudMatrix384不僅能構(gòu)建超大集群,還能實(shí)現(xiàn)極高的線(xiàn)性度。
線(xiàn)性度,就是1+1要盡量等于2。通常來(lái)說(shuō),算卡越多,損耗越多,線(xiàn)性度越差,1+1甚至可能只有1.6甚至1.2(舉例)。
線(xiàn)性度
CloudMatrix384的萬(wàn)卡集群線(xiàn)性度可以做到95%以上,性能提升與資源擴(kuò)展的比例接近1:1。
之所以能做到這一點(diǎn),是因?yàn)槿A為云通過(guò)一系列算法和軟件調(diào)優(yōu),很好地解決了通信瓶頸和負(fù)載不均衡等會(huì)對(duì)線(xiàn)性度造成嚴(yán)重影響的問(wèn)題。
例如,運(yùn)用多任務(wù)算網(wǎng)存融合負(fù)載均衡算法,協(xié)同調(diào)度,實(shí)現(xiàn)全網(wǎng)無(wú)阻塞;結(jié)合集群并行調(diào)度等技術(shù),提升資源的使用效率以及開(kāi)發(fā)者的開(kāi)發(fā)效率;在算力請(qǐng)求增加或減少時(shí),系統(tǒng)能夠合理分配計(jì)算資源,實(shí)現(xiàn)節(jié)點(diǎn)內(nèi)(Scale Up)秒級(jí)伸縮,節(jié)點(diǎn)間(Scale Out)毫秒級(jí)極速?gòu)椥浴?/p>
█?資源極致優(yōu)化,負(fù)載智能感知
前面我們已經(jīng)說(shuō)過(guò)了,CloudMatrix384的所有資源都是池化的。這為資源的優(yōu)化調(diào)度創(chuàng)造了條件。
在大模型推理過(guò)程中,有些任務(wù)是計(jì)算密集型,有些任務(wù)是內(nèi)存(顯存)密集型。通過(guò)“一切可組合”,可以實(shí)現(xiàn)資源的最佳分配。
以前面提到的Prefill(預(yù)填充)和Decode(解碼)兩種任務(wù)為例。前者屬于典型的計(jì)算密集型,后者則是內(nèi)存帶寬密集型。
CloudMatrix384可以根據(jù)NPU資源情況、業(yè)務(wù)請(qǐng)求數(shù)據(jù)等多因子,估算負(fù)載的態(tài)勢(shì),并結(jié)合新的編排模型,實(shí)現(xiàn)Prefill/Decode按比例組合,以及Prefill/Decode單獨(dú)擴(kuò)縮容。這提升了計(jì)算資源分配的合理性,減少了資源閑置,節(jié)約了成本。
CloudMatrix384還支持訓(xùn)推算力一體部署,比如白天推理,晚上訓(xùn)練。訓(xùn)推的算力可以按卡靈活分配,幫助客戶(hù)最優(yōu)使用資源。
這邊要提一下CloudMatrix384的“40天長(zhǎng)穩(wěn)訓(xùn)練、10分鐘快速恢復(fù)”能力。
大家都知道,AI大模型訓(xùn)練經(jīng)常會(huì)出錯(cuò)中斷。中斷后,需要時(shí)間進(jìn)行恢復(fù)。這不僅拉長(zhǎng)的訓(xùn)練周期,也增加了大量的訓(xùn)練成本。
CloudMatrix384借助昇騰云腦,實(shí)現(xiàn)了全棧故障感知、診斷與快速自動(dòng)恢復(fù)。在快速恢復(fù)方面,CloudMatrix384配合“三層快恢技術(shù)”,可以實(shí)現(xiàn)萬(wàn)卡集群故障10分鐘快速恢復(fù)。
█?最后的話(huà)
前不久,華為任正非在接受人民日?qǐng)?bào)采訪(fǎng)的時(shí)候,說(shuō)了這么一句話(huà):
“我們單芯片還是落后美國(guó)一代,我們用數(shù)學(xué)補(bǔ)物理、非摩爾補(bǔ)摩爾,用群計(jì)算補(bǔ)單芯片,在結(jié)果上也能達(dá)到實(shí)用狀況。”
這句話(huà),不正是指的CloudMatrix384超節(jié)點(diǎn)嗎?
任老爺子還是很坦誠(chéng)的,華為昇騰芯片的單芯片算力確實(shí)不如英偉達(dá)的最新競(jìng)品,而且,這個(gè)差距也不是短時(shí)間內(nèi)能夠彌補(bǔ)的。
但是,“單打獨(dú)斗”不行,可以“抱團(tuán)”啊。正所謂“團(tuán)結(jié)就是力量”,通過(guò)對(duì)等互聯(lián)池化,在底層架構(gòu)上進(jìn)行創(chuàng)新,也可以實(shí)現(xiàn)計(jì)算效率的提升,獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。
對(duì)于全球AI產(chǎn)業(yè)來(lái)說(shuō),摩爾定律逐漸放緩,芯片工藝制程越來(lái)越難提升,與其在單點(diǎn)算力上抓耳撓腮,不如學(xué)習(xí)一下華為,重構(gòu)計(jì)算互聯(lián)架構(gòu),才能更好地適應(yīng)新時(shí)代的需求,實(shí)現(xiàn)真正的系統(tǒng)最優(yōu)。
目前,CloudMatrix384昇騰AI云服務(wù)已經(jīng)在蕪湖、貴安、烏蘭察布、和林格爾等地的華為云數(shù)據(jù)中心規(guī)模上線(xiàn)。
新浪基于CloudMatrix384昇騰AI云服務(wù),為“智慧小浪”智能服務(wù)體系構(gòu)建了統(tǒng)一的推理平臺(tái),推理的交付效率提升超過(guò)50%,模型上線(xiàn)速度成倍加快。通過(guò)軟硬協(xié)同調(diào)優(yōu),NPU利用率提升超過(guò)40%,讓每一份資源都得到更高效的使用。
硅基流動(dòng)在CloudMatrix384昇騰AI云服務(wù)上部署DeepSeek-R1時(shí),采納了大規(guī)模專(zhuān)家并行方案,通過(guò)多專(zhuān)家負(fù)載均衡和極致通信優(yōu)化,實(shí)現(xiàn)高吞吐及更高性能,大幅提升了用戶(hù)體驗(yàn)。
總而言之,希望CloudMatrix384能走出一條屬于自己的特色發(fā)展之路,也希望國(guó)內(nèi)AI產(chǎn)業(yè)能帶來(lái)更多類(lèi)似的創(chuàng)新產(chǎn)品。
日積月累,我們一定能夠?qū)崿F(xiàn)彎道超車(chē),打破壟斷,真正在國(guó)際舞臺(tái)上與巨頭們同臺(tái)競(jìng)技,甚至引領(lǐng)全球AI發(fā)展。