當(dāng)前,智能算力革命重塑產(chǎn)業(yè)創(chuàng)新范式,人工智能進(jìn)入“指數(shù)級(jí)躍遷”時(shí)代,模型迭代速度也迎來(lái)“指數(shù)級(jí)加速”。無(wú)論是擴(kuò)展模型規(guī)模、提升泛化能力的“參數(shù)摸高”,還是優(yōu)化模型架構(gòu)、提升運(yùn)行效率的“工程創(chuàng)新”,都在沿著各自路徑快速推進(jìn),共同推動(dòng)大模型敏捷迭代和規(guī)模應(yīng)用。
在剛剛落幕的鯤鵬昇騰開(kāi)發(fā)者大會(huì)2025——昇騰AI開(kāi)發(fā)者峰會(huì)2025,一系列圍繞大模型創(chuàng)新的重大發(fā)布和開(kāi)放舉措,也深刻印證了這一點(diǎn)。從底層開(kāi)放促進(jìn)AI創(chuàng)新,到超節(jié)點(diǎn)+大EP護(hù)航MoE落地,再到生態(tài)協(xié)同加速共建AI產(chǎn)業(yè),昇騰AI正持續(xù)升騰,“?!彼苁澜?。
昇騰全面深度開(kāi)放,底層創(chuàng)新促進(jìn)AI模型發(fā)展
隨著大模型的快速迭代,開(kāi)發(fā)者的開(kāi)發(fā)方式也在發(fā)生變化,逐漸從上層軟件走向更貼近硬件的極致優(yōu)化,對(duì)算力系統(tǒng)的開(kāi)放性、工具鏈的豐富度等提出了新的要求。為此昇騰分層開(kāi)源開(kāi)放基礎(chǔ)硬件、異構(gòu)計(jì)算架構(gòu)CANN、昇思AI框架、以及各類(lèi)應(yīng)用使能套件和開(kāi)發(fā)工具鏈,并持續(xù)升級(jí)發(fā)布新品賦能伙伴創(chuàng)新,通過(guò)底層創(chuàng)新促進(jìn)AI模型發(fā)展。
在硬件使能層,CANN通過(guò)分層開(kāi)放,當(dāng)前已開(kāi)源Ascend C、算子加速庫(kù)、集合通信庫(kù)等組件,并在Gitee上提供了260+算子、10+通信算法參考樣例,顯著提升開(kāi)發(fā)效率;同時(shí)深度開(kāi)放了Runtime運(yùn)行時(shí)、畢昇編譯器等組件接口,滿足極致開(kāi)發(fā)的需求。此外,CANN還在計(jì)算、通信、內(nèi)存三個(gè)維度持續(xù)提升,實(shí)現(xiàn)底層硬件資源的極致利用,精準(zhǔn)適配不同開(kāi)發(fā)場(chǎng)景需求,加速AI技術(shù)引領(lǐng)。
在算子開(kāi)發(fā)層,昇騰在去年發(fā)布的Ascend C 2.0基礎(chǔ)上正式發(fā)布CATLASS昇騰算子模板庫(kù),按照計(jì)算粒度自上而下分層設(shè)計(jì),提供從接口調(diào)用到單條指令的多層可復(fù)用模板,當(dāng)前已在Gitee社區(qū)開(kāi)源上線并提供20個(gè)典型算子樣例,大幅縮短開(kāi)發(fā)周期,實(shí)現(xiàn)算子性能最優(yōu)。
同時(shí),畢昇編譯器全面升級(jí),提供端到端的昇騰算子編譯和調(diào)優(yōu)能力,包括前端支持混合編程、異構(gòu)編譯;中端借助親和微架構(gòu)技術(shù),使算子性能提升超 20%;后端能優(yōu)化寄存器分配、定位內(nèi)存異常;同時(shí)開(kāi)放AscendNPU IR接口,實(shí)現(xiàn)無(wú)感對(duì)接Triton、FlagTree等Python算子編程框架,使能開(kāi)發(fā)者在算子層面持續(xù)創(chuàng)新突破。
面向強(qiáng)化學(xué)習(xí),昇騰發(fā)布強(qiáng)化學(xué)習(xí)開(kāi)發(fā)套件MindSpeed RL并在Gitee上開(kāi)源,提供大規(guī)模訓(xùn)推共卡、權(quán)重Reshard和調(diào)度優(yōu)化等多場(chǎng)景加速技術(shù),性能持續(xù)引領(lǐng),滿足后訓(xùn)練中多任務(wù)的協(xié)同加速。同時(shí)帶來(lái)多模態(tài)理解SDK和昇騰推理微服務(wù)MIS,大幅簡(jiǎn)化應(yīng)用的部署流程,更好地讓每位開(kāi)發(fā)者聚焦應(yīng)用的創(chuàng)新。
昇騰持續(xù)引領(lǐng)創(chuàng)新,超節(jié)點(diǎn)+大EP護(hù)航MoE落地
在模型快速迭代中,繼DeepSeek公布MoE模型訓(xùn)推方案后,MoE(混合專(zhuān)家模型)憑借優(yōu)異模型效果已成為主流模型結(jié)構(gòu)。隨之而來(lái)的是,MoE涉及最復(fù)雜的混合并行策略,隨著并行規(guī)模的增長(zhǎng),傳統(tǒng)服務(wù)器的跨機(jī)帶寬成為訓(xùn)練核心瓶頸;同時(shí)MoE涉及多專(zhuān)家協(xié)作,專(zhuān)家負(fù)載不均的情況時(shí)常發(fā)生,導(dǎo)致效率低下且推理服務(wù)不穩(wěn)定。昇騰在這兩個(gè)維度創(chuàng)新引領(lǐng),以超節(jié)點(diǎn)+大EP構(gòu)筑了MoE落地的最佳拍檔。
在訓(xùn)練方面,昇騰超節(jié)點(diǎn)架構(gòu)親和MoE,以突破性架構(gòu)創(chuàng)新打破集群互聯(lián)瓶頸,實(shí)現(xiàn)節(jié)點(diǎn)間高效協(xié)同,讓龐大集群如同一臺(tái)強(qiáng)大的計(jì)算機(jī)運(yùn)行,大幅提升整體計(jì)算效率。峰會(huì)期間重磅推出的昇騰384超節(jié)點(diǎn),通過(guò)構(gòu)建業(yè)界最大規(guī)模的384卡高速總線互聯(lián)體系,將通信帶寬提升了15倍,訓(xùn)練性能相比傳統(tǒng)節(jié)點(diǎn)實(shí)現(xiàn)了3倍飛躍,以強(qiáng)勁算力支撐大規(guī)模AI任務(wù)快速推進(jìn),使讓昇騰成為MoE模型的最佳選擇。
性能測(cè)試數(shù)據(jù)顯示,在昇騰384超節(jié)點(diǎn)上,LLaMA 3等千億稠密模型性能相比傳統(tǒng)集群提升2.5倍以上;在通信需求更高的Qwen、DeepSeek等多模態(tài)、MoE模型上,性能提升可達(dá)3倍以上,較業(yè)界其他集群高出1.2倍,在行業(yè)中處于領(lǐng)先地位。未來(lái)還可進(jìn)一步擴(kuò)展為包含數(shù)萬(wàn)卡的超節(jié)點(diǎn)集群,為更大規(guī)模的模型演進(jìn)提供有力支撐。
在推理環(huán)節(jié),昇騰大EP把模型權(quán)重分布到更多的卡上,通過(guò)降低單卡內(nèi)存權(quán)重占用,釋放更多內(nèi)存用于用戶并發(fā)所需的KV Cache,最終實(shí)現(xiàn)更大的單卡吞吐能力;同時(shí),將每張卡專(zhuān)家數(shù)減少,使得權(quán)重加載時(shí)間更短,讓模型Decode更快,系統(tǒng)時(shí)延更低,最終實(shí)現(xiàn)了2到4倍的單卡吞吐提升,50%的系統(tǒng)時(shí)延降低,在相同卡數(shù)下獲得更大的收益,實(shí)現(xiàn)“一份投入,多份輸出”,并且用戶體驗(yàn)更佳。
峰會(huì)期間,昇騰推理解決方案持續(xù)升級(jí),全新發(fā)布MindIE Motor推理服務(wù)加速庫(kù),提供精細(xì)異步調(diào)度、AutoPD分離、高階RAS等特性,通過(guò)動(dòng)態(tài)專(zhuān)家冗余與親和調(diào)度技術(shù)均衡負(fù)載,AutoPD分離部署智能調(diào)配Prefill/Decode資源,三重RAS防護(hù)保障系統(tǒng)長(zhǎng)穩(wěn)運(yùn)行,進(jìn)一步系統(tǒng)性提升昇騰大EP的能力。
在昇騰大EP的加持下,昇騰384超節(jié)點(diǎn)成為業(yè)界唯一實(shí)現(xiàn)一卡一專(zhuān)家的方案。該方案通過(guò)全高速總線互聯(lián)實(shí)現(xiàn)專(zhuān)家一卡一域分布,突破性達(dá)成Decode時(shí)延15ms的極致性能,在同等50ms時(shí)延下單卡吞吐達(dá)傳統(tǒng)集群4倍,賦能AI模型在實(shí)際應(yīng)用中降本提質(zhì)增效,更好地保護(hù)客戶投資。
業(yè)界主流生態(tài)支持昇騰,加速共建AI產(chǎn)業(yè)大生態(tài)
在昇騰AI持續(xù)開(kāi)放創(chuàng)新背后,業(yè)界主流社區(qū)支持昇騰、主流模型基于昇騰孵化……技術(shù)突破與生態(tài)發(fā)展得到同頻共振,一個(gè)基于昇騰的更加繁榮的AI產(chǎn)業(yè)大生態(tài)正加速構(gòu)建。
一方面,Pytorch、vLLM等業(yè)界主流社區(qū)均已支持昇騰,便于開(kāi)發(fā)者基于昇騰開(kāi)發(fā)。會(huì)上,清華大學(xué)博士生、vLLM社區(qū)Maintainer游凱超分享了雙方的合作故事。在最新版本的vLLM中,開(kāi)發(fā)者可以基于昇騰與vLLM的全鏈功能,一條命令實(shí)現(xiàn)底層應(yīng)用的無(wú)感切換,同時(shí)通過(guò)插件化的解決方案獲得混合并行、動(dòng)態(tài)調(diào)度等更多高階特性。未來(lái)雙方還將深化技術(shù)創(chuàng)新,為廣大用戶和開(kāi)發(fā)者提供更極致的大模型推理體驗(yàn)。
另一方面,基于昇騰AI基礎(chǔ)軟硬件平臺(tái),各行各業(yè)已孵化50多個(gè)主流大模型。會(huì)上,科大訊飛星火大模型訓(xùn)練工程資深技術(shù)專(zhuān)家張??》窒砹嘶跁N騰超節(jié)點(diǎn)架構(gòu)的MoE模型訓(xùn)練實(shí)踐。過(guò)去一年,訊飛完成了長(zhǎng)思考強(qiáng)化學(xué)習(xí)、MoE訓(xùn)練推理等多個(gè)關(guān)鍵技術(shù)在昇騰算力底座上的突破和率先應(yīng)用;未來(lái)將攜手昇騰和廣大開(kāi)發(fā)者,繼續(xù)全力推進(jìn)星火大模型研發(fā)迭代,通過(guò)算法與算力的協(xié)同創(chuàng)新優(yōu)化,加速行業(yè)應(yīng)用落地。
毫無(wú)疑問(wèn),業(yè)界主流生態(tài)對(duì)昇騰的支持,有助于整合各方資源,吸引更多開(kāi)發(fā)者基于昇騰平臺(tái)進(jìn)行開(kāi)發(fā)。這不僅豐富了昇騰生態(tài)中的模型和應(yīng)用種類(lèi),還能促進(jìn)不同技術(shù)之間的交流與融合,加速AI技術(shù)的創(chuàng)新和推廣,推動(dòng)全球AI生態(tài)系統(tǒng)的繁榮發(fā)展。