• 正文
    • 大模型從云向端側(cè)滲透,正在倒逼軟硬件重新設(shè)計
    • Armv9 在云端率先開啟了 AI 時代
    • 在端側(cè),Arm 終端 CSS讓大模型跑出“加速度”
    • 在軟件層面,KleidiAI正在助力開發(fā)者實現(xiàn)AI普惠
    • 寫在最后
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

誰在推動大模型落地?

原創(chuàng)
4小時前
214
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

近年來,半導(dǎo)體產(chǎn)業(yè)經(jīng)歷周期性調(diào)整,2023 年產(chǎn)業(yè)收入同比下滑 11%,降jknok至 5300 億美元,但2024 年實現(xiàn)了約 20% 的增長。國際半導(dǎo)體產(chǎn)業(yè)協(xié)會 (SEMI ) 預(yù)測,2025年半導(dǎo)體產(chǎn)業(yè)收入將實現(xiàn)兩位數(shù)增長,并有望在 2030 年突破萬億美元關(guān)口,發(fā)展前景十分廣闊。

然而,在 2024 年半導(dǎo)體產(chǎn)業(yè)復(fù)蘇的表象之下,若剔除 AI 相關(guān)產(chǎn)品營收,整體增長實則呈現(xiàn)負(fù)向態(tài)勢。這表明,自去年起的行業(yè)回暖,本質(zhì)上是 AI 產(chǎn)業(yè)高速發(fā)展驅(qū)動的增長。

大模型從云向端側(cè)滲透,正在倒逼軟硬件重新設(shè)計

近年來,以大語言模型(LLM)為代表的生成式 AI 技術(shù)蓬勃發(fā)展,成為推動技術(shù)演進和行業(yè)變革的關(guān)鍵力量。根據(jù) IDC 預(yù)測,到 2028 年,中國 AI 大模型解決方案市場規(guī)模將達(dá)到 211 億元人民幣,包括提供云服務(wù)模式交付的中國模型即服務(wù)(MaaS),以及提供模型框架、大模型、大模型生命周期工具鏈等的AI大模型解決方案,這充分顯示出 AI 技術(shù)在云端的強大發(fā)展?jié)摿蛷V泛應(yīng)用前景。

與此同時,隨著AI技術(shù)的飛速發(fā)展,其產(chǎn)業(yè)格局正在經(jīng)歷深刻的變革,呈現(xiàn)出從云端向端側(cè)延伸的顯著趨勢。

根據(jù) Counterpoint 的預(yù)測,2024 年端側(cè)大模型參數(shù)量將達(dá)到 130 億,而到 2025 年,這一數(shù)字將增長至 170 億。這表明,AI 技術(shù)正在加速向端側(cè)滲透,從云端的強大計算能力和數(shù)據(jù)處理能力,到端側(cè)的高效本地化應(yīng)用,AI 產(chǎn)業(yè)發(fā)展正朝著更加多元、靈活和高效的方向邁進。

以上種種趨勢,都在倒逼端側(cè)的軟硬件進行重新設(shè)計與升級。在這一過程中,經(jīng)過市場驗證的底層計算技術(shù)架構(gòu)成為推動產(chǎn)業(yè)發(fā)展的關(guān)鍵基石。這些架構(gòu)能夠為芯片設(shè)計和系統(tǒng)開發(fā)提供可靠的底層支持,降低研發(fā)風(fēng)險,縮短開發(fā)周期,并顯著提升系統(tǒng)的整體性能和穩(wěn)定性。

Arm作為全球領(lǐng)先的計算平臺公司,正通過其創(chuàng)新的計算架構(gòu)平臺,加上軟硬件協(xié)同以及系統(tǒng)級思維,為釋放 AI 大模型的潛能提供強大的支持,助力大模型從云到端的部署與高效運行。

Armv9 在云端率先開啟了 AI 時代

算力需求激增的背景下,云服務(wù)提供商需要進一步優(yōu)化數(shù)據(jù)中心架構(gòu),提升計算資源的彈性調(diào)度能力,以應(yīng)對大規(guī)模 AI 模型訓(xùn)練和推理任務(wù)的高并發(fā)需求。

而對于芯片廠商來講,他們需要研發(fā)更高性能、更大算力的通用或?qū)S眯酒?,兼具高吞吐量、低延遲和高能效比,以支持大規(guī)模并行計算和復(fù)雜模型的高效訓(xùn)練與推理,應(yīng)對數(shù)據(jù)中心能耗挑戰(zhàn)。

在這樣的背景下,Armv9 架構(gòu)應(yīng)運而生,并開啟了AI時代。此時,Armv8架構(gòu)已經(jīng)服役10年,與上一代經(jīng)典架構(gòu)相比,Armv9 架構(gòu)最大的特色就是集成了用于加速和保護 LLM 等先進的生成式 AI 工作負(fù)載的特性,比如可伸縮矩陣擴展 (SME) 和可伸縮矢量擴展 (SVE2) 兩大關(guān)鍵特性。

其中,SME 使用量化(通常是從浮點表示法轉(zhuǎn)換為定點表示法)來減少 AI 和 ML 模型的內(nèi)存帶寬、占用空間以及計算復(fù)雜性,進而提高其效率; SVE2有助于提升DSP 任務(wù)性能,該特性使得處理復(fù)雜算法更加快速、高效。

提到SVE技術(shù),其起源可以追溯到2016年Arm與富士通的合作,該技術(shù)在富士通的A64FX CPU內(nèi)核中首次實現(xiàn)商業(yè)化應(yīng)用,并為曾登頂全球超算榜首的"富岳"(Fugaku)超級計算機提供了核心算力支撐。2019年,Arm在Armv9架構(gòu)引入SVE2,正式確立其作為繼Neon技術(shù)之后的新一代矢量處理標(biāo)準(zhǔn)。面向AI負(fù)載,SVE2的加持有助于提升DSP 任務(wù)的性能,使得處理復(fù)雜算法更加快速、高效,比如阿里巴巴達(dá)摩院就將其開源大模型 FunASR跑在Arm Neoverse 服務(wù)器上實現(xiàn)了高效運行。

其實早在 AI 時代全面到來之前,Arm Neoverse 平臺就已憑借其在云端的通用計算性能和高能效,在AI推理場景中展現(xiàn)出獨特優(yōu)勢。

筆者在兩年以前曾采訪過阿里云視頻云,探討其快速發(fā)展背后的硬實力是什么。除了強大的軟件、算法支撐能力以外,阿里云視頻云負(fù)責(zé)人致凡還提到了倚天710。他說,視頻編碼對算力的要求很高,所以常常會試圖用算力換存儲,用算力換傳輸帶寬。而提升CPU算力的“捷徑”就是選擇更適配的內(nèi)核架構(gòu)。

當(dāng)時在視頻領(lǐng)域,傳統(tǒng)架構(gòu)已經(jīng)有三十幾年的歷史,市占率在90%以上,但也背負(fù)著沉重的向后兼容包袱。因此,倚天710在預(yù)研階段就錨定了Armv9架構(gòu),旨在解決歷史包袱問題,同時還可以根據(jù)需求增加寄存器。

此外,致凡表示:“不管是Hyper-Threading還是其他,采用傳統(tǒng)架構(gòu)的CPU走的都是提高主頻的路子,這在視頻處理時就會遇到一些問題,比如視頻壓縮的過程中,視頻畫面會被分成I幀、P幀、B幀,不同幀的算力并不是平均分配的,這就導(dǎo)致算力需求極不穩(wěn)定。所以為了讓芯片不跑超頻,往往就需要做一些降頻處理,這時候它的算力就可能達(dá)不到相應(yīng)的編碼需求。在實際業(yè)務(wù)中,由于視頻業(yè)務(wù)不是單機運行的,會有很多的服務(wù)器集群配合來處理,為了避免CPU超頻等復(fù)雜情況的出現(xiàn),就不得不把服務(wù)器集群的水位降低,這是傳統(tǒng)架構(gòu)CPU比較大的問題?!?/p>

“然而Arm整體的設(shè)計是穩(wěn)定的,不管任務(wù)有多復(fù)雜,都能實現(xiàn)穩(wěn)定輸出,做到良好的資源調(diào)配和水位調(diào)配,不用預(yù)留很多冗余來防止芯片超頻,這對于to B業(yè)務(wù)來說非常重要?!?致凡補充道。

除了主頻高以外,傳統(tǒng)架構(gòu)CPU的核不多,通常是兩個vCPU/HT共享一個物理核、1份ALU,但Arm可以支持128/256/512或更多的核,類似GPU的設(shè)計,如此一來,對于不同應(yīng)用場景而言,就可以用少核應(yīng)對低算力需求的場景,多核應(yīng)對高算力需求的場景,實現(xiàn)更優(yōu)的業(yè)務(wù)調(diào)配,降低投入成本。

而在用電成本占據(jù)運營成本60%-70%的數(shù)據(jù)中心中,基于 Arm Neoverse 架構(gòu)的服務(wù)器所具備的低功耗特性,能帶來更優(yōu)異的能效比。

如今,兩年過去,目前已有更多頭部云服務(wù)提供商和服務(wù)器制造商推出了基于 Arm Neoverse 平臺的服務(wù)器產(chǎn)品,并提供了完整的軟硬件支持和優(yōu)化。比如,基于Arm Neoverse V2的AWS Graviton4 C8g.x16large 實例上運行 Llama 3 70B,每秒可生成 10 個詞元,該速度超過了人類可讀性水平;而基于 Arm Neoverse N2 架構(gòu)的倚天 710,也在運行 Llama 3 和 Qwen1.5 等業(yè)內(nèi)標(biāo)準(zhǔn)大語言模型時展現(xiàn)了極高的靈活性和可擴展性。

從某種程度上來說,Arm Neoverse 平臺已逐漸成為云數(shù)據(jù)中心領(lǐng)域的事實標(biāo)準(zhǔn)。Arm在上個月公開宣布,2025 年出貨到頭部超大規(guī)模云服務(wù)提供商的算力中,將有近 50% 是基于 Arm 架構(gòu)。

在端側(cè),Arm 終端 CSS讓大模型跑出“加速度”

隨著生成式AI和大模型技術(shù)向終端設(shè)備滲透,計算架構(gòu)的能效比與本地化處理能力愈發(fā)關(guān)鍵。

由于端側(cè)設(shè)備的內(nèi)存帶寬范圍通常在50-100GB/s之間,端側(cè)大模型的參數(shù)規(guī)模一般被限制在1B至3B,而7B是臨界值。

在此背景下,當(dāng)大模型下潛到芯片層面,如何讓大模型在AI芯片上運行得更快、調(diào)優(yōu)得更好,成為當(dāng)前人工智能落地的關(guān)鍵難題,采用更經(jīng)濟的AI專用芯片將成為必然趨勢。

在端側(cè),Arm 終端計算子系統(tǒng) (CSS for Client) 囊括了最新的 Armv9.2 Cortex CPU 集群和 Arm Immortalis 與 Arm Mali GPU、CoreLink 互連系統(tǒng) IP,甚至還包含知名代工廠采用3nm工藝生產(chǎn)就緒的 CPU 和 GPU 物理實現(xiàn),可以直接用于SoC集成,為手機、平板、智能可穿戴設(shè)備等端側(cè)AI提供了堅實的計算基礎(chǔ)。

以基于Armv9.2架構(gòu)的Cortex-X925為例,該CPU實現(xiàn)了Cortex-X系列推出以來最高的同比性能提升。尤其在AI性能方面,相比前代Cortex-X4 CPU,Cortex-X925的 TOPS 提高了 50%。

通過與Meta的合作優(yōu)化,Arm CPU在移動設(shè)備上實現(xiàn)了Llama 3.2 3B模型的5倍提示處理加速與3倍詞元生成提速,生成階段可達(dá)每秒19.92個詞元,這將直接減少在設(shè)備上處理AI工作負(fù)載的延遲,大大提升用戶整體體驗。

對于參數(shù)規(guī)模更大的Llama 2 7B模型,Arm CPU同樣展示了端側(cè)部署的可行性:與Llama 2 7B LLM 中的原生實現(xiàn)相比,詞元首次響應(yīng)時間縮短50%,文本生成速率提升至每秒10個詞元,已超越人類平均閱讀速度。這一成果得益于Arm工程團隊對計算例程的深度優(yōu)化,證明了純CPU架構(gòu)在邊緣AI場景下的潛力。

值得一提的是,就在上個月底,Arm 高級副總裁兼終端產(chǎn)品事業(yè)部總經(jīng)理 Chris Bergey在出席媒體活動期間透露:代號為 "Travis" 的Arm 新一代旗艦 CPU 將于今年晚些時候推出,對比現(xiàn)有 Cortex-X925 ,將繼續(xù)實現(xiàn)兩位數(shù)的 IPC 提升。

在軟件層面,KleidiAI正在助力開發(fā)者實現(xiàn)AI普惠

在云端,軟件開發(fā)者需要不斷優(yōu)化算法框架,提高模型的訓(xùn)練效率和推理性能,以降低云端計算成本并提升響應(yīng)速度。在端側(cè),他們需要設(shè)計出更輕量級、更適應(yīng)端側(cè)環(huán)境的算法和框架,以實現(xiàn)快速響應(yīng)和低延遲的用戶體驗。

為了助力開發(fā)者們更快、更好地實現(xiàn)大模型的性能提升與落地加速,Arm 在 2024 年推出了KleidiAI軟件庫,以其全棧優(yōu)化能力重塑大模型落地范式。

KleidiAI的獨特之處在于其高度適配Arm架構(gòu)的優(yōu)化能力,無論是Neon指令集還是SVE2和SME2擴展,從移動端到數(shù)據(jù)中心領(lǐng)域,它都能充分發(fā)揮硬件潛能。同時,它對PyTorch、TensorFlow、MediaPipe等主流AI框架的兼容性,讓開發(fā)者無需重寫代碼即可享受性能躍升。這種“開箱即用”的特性,使其迅速成為Meta Llama 3、微軟Phi-3、騰訊混元等大模型的首選加速方案。

更值得關(guān)注的是,KleidiAI并非局限于單一場景。從智能終端、物聯(lián)網(wǎng)設(shè)備到汽車和云端服務(wù)器,它的優(yōu)化能力覆蓋了Arm的全部業(yè)務(wù)領(lǐng)域,確保AI計算無論在哪里運行,都能以最高效率執(zhí)行。

以與阿里巴巴淘天集團的合作為例,KleidiAI與輕量級深度學(xué)習(xí)框架MNN結(jié)合,成功讓通義千問Qwen2-VL-2B-Instruct多模態(tài)模型在移動設(shè)備上高效運行。實測數(shù)據(jù)顯示,模型預(yù)填充速度提升57%,解碼速度提升28%,這意味著更快的圖像識別、更流暢的交互體驗,為阿里“以用戶為中心“的應(yīng)用帶來質(zhì)的飛躍。

無獨有偶,騰訊則借助KleidiAI優(yōu)化其自研Angel框架,使混元大模型在移動端的推理速度實現(xiàn)驚人提升——預(yù)填充性能翻倍,解碼效率提高10%。這一進步讓其眾多APP 實現(xiàn)出色的 AI 體驗,同時降低設(shè)備功耗,延長續(xù)航。

作為 Arm Kleidi 技術(shù)的一部分,Arm Compute Library (ACL) 通過利用 BF16 MMLA 指令,提供了優(yōu)化的 BF16 通用矩陣乘法 (GEMM) 內(nèi)核。阿里云倚天710 CPU,搭配 BF16 Fast Math 內(nèi)核,使得 paraformer 自動語音識別模型的推理性能較同等級別的 x86 云實例有高達(dá) 2.4 倍的優(yōu)勢。從基準(zhǔn)測試結(jié)果來看,倚天 710 在自動語音識別推理部署的 TCO 方面具有顯著優(yōu)勢,其性價比較同等級別 x86 和 GPU 平臺高出 3.5 倍。這不僅驗證了Arm架構(gòu)在AI計算中的高效能,也為企業(yè)提供了更具成本優(yōu)勢的云端推理選擇。

未來,隨著KleidiAI持續(xù)迭代,Arm正構(gòu)建起橫跨千億級芯片設(shè)備的智能計算網(wǎng)絡(luò),這樣一種"硬件架構(gòu)+軟件生態(tài)"的雙輪驅(qū)動模式,或?qū)⒊蔀锳I普惠化進程的核心加速器。

寫在最后

當(dāng)大模型的算力需求從云端涌向端側(cè),從數(shù)據(jù)中心滲透至手機、汽車、物聯(lián)網(wǎng)設(shè)備的每一個角落,這場技術(shù)變革的核心驅(qū)動力,正來自于軟硬件協(xié)同創(chuàng)新的深度融合。

作為 AI 技術(shù)創(chuàng)新的核心基座,Arm 計算平臺以其通用化架構(gòu)與生態(tài)兼容性,正成為全球企業(yè)部署大模型的標(biāo)配選擇。

 

Arm

Arm

ARM公司是一家知識產(chǎn)權(quán)(IP)供應(yīng)商,主要為國際上其他的電子公司提供高性能RISC處理器、外設(shè)和系統(tǒng)芯片技術(shù)授權(quán)。目前,ARM公司的處理器內(nèi)核已經(jīng)成為便攜通訊、手持計算設(shè)備、多媒體數(shù)字消費品等方案的RISC標(biāo)準(zhǔn)。公司1990年11月由Acorn、Apple和VLSI合并而成。

ARM公司是一家知識產(chǎn)權(quán)(IP)供應(yīng)商,主要為國際上其他的電子公司提供高性能RISC處理器、外設(shè)和系統(tǒng)芯片技術(shù)授權(quán)。目前,ARM公司的處理器內(nèi)核已經(jīng)成為便攜通訊、手持計算設(shè)備、多媒體數(shù)字消費品等方案的RISC標(biāo)準(zhǔn)。公司1990年11月由Acorn、Apple和VLSI合并而成。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄