作者 |??程茜,編輯?|??漠影
AI PC正在GPGPU芯片之上迸發(fā)出新的生命力!
智東西3月14日報道,在一年一度的行業(yè)大會世界移動通信大會上,PC、手機、機器人等各路終端設備無不與AI深度綁定。
作為全球AI PC龍頭的聯(lián)想亮出了自家系列AI PC解決方案,其產(chǎn)品背后的AzureBlade M.2加速卡正是支持其AI PC體驗的關(guān)鍵動力。AzureBlade M.2加速卡就來自國內(nèi)清華系GPGPU創(chuàng)企珠海芯動力科技。芯動力成為聯(lián)想在筆記本電腦dNPU方案領域的首位合作伙伴。
在大模型時代,邊緣設備迎來了新的機遇期,春節(jié)爆火的DeepSeek更是加速了這一進程,以AI PC、AI手機為代表的諸多硬件連番炸場。
其背后的原因是,大模型對數(shù)據(jù)處理的實時性、隱私性要求不斷提高,邊緣設備能夠在靠近數(shù)據(jù)源的地方進行數(shù)據(jù)處理;邊緣設備可承擔部分數(shù)據(jù)預處理和簡單推理任務,拓寬應用場景邊界;DeepSeek憑借算法優(yōu)化進一步加速了大模型在邊緣設備上的部署與應用進程,讓大模型以更低資源消耗在邊緣設備高效運行。
這股邊緣AI爆發(fā)的熱潮宛如一把雙刃劍,在為行業(yè)帶來新契機的同時,也向AI芯片企業(yè)拋出了一連串棘手難題,高性能、低延時、低功耗、兼容多種操作系統(tǒng)……聯(lián)想與芯動力的合作正是這道難題的最新解法。
邊緣AI時代爆發(fā)前夜,M.2加速卡的獨特優(yōu)勢是什么?其為何能入局AI PC龍頭企業(yè)聯(lián)想的產(chǎn)品布局中?我們試圖通過拆解芯動力的產(chǎn)品,找到這些問題的答案。
01.DeepSeek引爆邊緣AI芯片廠商機遇挑戰(zhàn)并存
在當下,端側(cè)設備部署大模型的風潮洶涌。然而,這股熱潮背后橫亙著一個核心命題:端側(cè)設備以及AI芯片是否足以承載大模型所需的性能。
因此,端側(cè)AI爆發(fā)呈現(xiàn)出兩大顯著趨勢。
一方面,端側(cè)設備部署大模型這把火燒的更旺了。
此前,受限于硬件性能和模型技術(shù),端側(cè)部署的模型諸多無法處理復雜任務,這也導致端側(cè)AI應用場景有限,但更靠近用戶的端側(cè)設備在保護用戶數(shù)據(jù)隱私方面、實時反饋方面更有優(yōu)勢。
DeepSeek以開源和低成本的特性極大拉低了大模型部署的門檻,使得端側(cè)設備部署更高性能大模型的可能性增強。同時,基于DeepSeek的算法優(yōu)化策略,使得支持長文本處理等復雜任務的高性能大模型與端側(cè)設備適配,開發(fā)者還可以通過蒸餾優(yōu)化等生成特定場景性能更強的小模型。對于中小企業(yè)或者個人開發(fā)者而言,能更快速相關(guān)端側(cè)AI應用。
隨之而來的是,AI手機、AI PC到AI眼鏡等加速涌現(xiàn),端側(cè)AI爆發(fā)已成共識。
然而另一方面,端側(cè)AI的爆發(fā),于AI芯片廠商既是蓬勃發(fā)展的難得機遇,也帶來了諸多嚴峻挑戰(zhàn) 。
AI在手機、PC、智能穿戴等諸多端側(cè)設備中應用不斷拓展,使得AI芯片需求大幅增加,并且由于其設備形態(tài)、應用場景多元化,不同場景對芯片需求各異,為芯片廠商提供了更多差異化競爭的機會。
但更為關(guān)鍵的是,AI芯片的性能要符合當下端側(cè)設備的發(fā)展趨勢,主要集中在性能、功耗、成本、可擴展性上。
包括端側(cè)設備對功耗要求極高,需要芯片兼顧低功耗、高性能,且當下算法和模型仍在不斷更新迭代,芯片廠商需要確保芯片高效適配新的模型和算法。此外,端側(cè)設備的廠商對成本更為敏感,芯片廠商需要降低芯片的制造成本、研發(fā)成本等,以提高產(chǎn)品的市場競爭力。
以AI PC為例,用戶基于其需要處理的生成任務各不相同,文字、圖片、視頻生成等應用盡有,因此對于計算資源和處理能力的要求也有區(qū)別。
這種情況下,以通用計算為核心的計算架構(gòu)在處理生成任務時可能面臨性能有限、效率低下、能耗高、靈活性不足等瓶頸,因此從以通用計算為核心的計算架構(gòu)向更加高性能的異構(gòu)AI計算架構(gòu)升級,成為當下增強端側(cè)設備生成式AI體驗的重要路徑。
通過讓CPU、GPU、NPU等不同計算單元“各司其職”、協(xié)同運作,構(gòu)建高性能異構(gòu)AI計算架構(gòu),便能依據(jù)各類生成任務的特性,實現(xiàn)任務的合理分配 。
此外,對于AI芯片而言,在滿足性能與功耗等嚴苛要求的同時,還需提供更高的性價比,才能吸引PC廠商在設備中選用,同時也讓終端用戶更樂于接受搭載此類芯片的產(chǎn)品。
在這個關(guān)鍵節(jié)點,以AI PC為代表的端側(cè)設備正在呼喚相匹配的AI芯片,加速大模型在端側(cè)的繁榮。
02.小體積、高性能、低功耗、高性價比M.2加速卡成AI PC致勝利器
就在2025世界移動通信大會(MWC 2025)上,我們看到了AI PC龍頭聯(lián)想和國產(chǎn)AI芯片廠商芯動力聯(lián)手的成果。
聯(lián)想全新升級的AI PC系列產(chǎn)品亮相,而支持其AI體驗的關(guān)鍵之一,正是芯動力基于可重構(gòu)并行處理器RPP打造的AzureBlade M.2加速卡。
聯(lián)想相關(guān)負責人在MWC上介紹,聯(lián)想AI PC實現(xiàn)了將大模型放到本地端推理的突破,盡管傳統(tǒng)本地推理大都采用集成(CPU+iNPU)或獨立顯卡GPU,但經(jīng)過多重對比發(fā)現(xiàn),在運行大語言模型時,通常依賴GPU進行加速,iNPU只有在特定的場景中才能被調(diào)用。聯(lián)想AI PC最終采用了芯動力AzureBlade M.2加速卡,并命名為dNPU。M.2加速卡在進行大模型推理時具有高效率、低功耗性能,同時可進一步釋放顯卡能力,在提高效率的同時更節(jié)約能耗。
從具體的效果來看,聯(lián)想PC上的個人智能體AI NOW執(zhí)行推理任務主要在dNPU內(nèi)完成,無需占用 CPU、顯存或GPU資源,整個推理過程中,CPU的資源占用極低,僅在數(shù)據(jù)預處理以及數(shù)據(jù)傳輸環(huán)節(jié)占用少量資源,可以顯著提高推理速度和整體性能。在低功耗方面,通過聯(lián)想小新14P實測,芯動力研發(fā)人員發(fā)現(xiàn),于本地化大模型部署場景下,運用芯動力dNPU執(zhí)行大模型推理任務時,整機能耗相較于未使用dNPU的情形,實現(xiàn)節(jié)省了60%能耗。這得益于dNPU的深度優(yōu)化架構(gòu),其推理任務可以僅通過CPU適度調(diào)用即可完成,避免額外高功耗設備介入。這種設計整體優(yōu)化了系統(tǒng)運行的高性能和低功耗。
具體來看,AI PC等端側(cè)設備通常受限于緊湊空間,內(nèi)部留給各類組件的體積十分有限,因此M.2加速卡的體積也要足夠小。
芯動力基于RPP架構(gòu)自主研發(fā)的AI芯片AE7100尺寸僅為17mm×17mm,集成了該芯片的M.2加速卡尺寸為22mmx88mm,大小與半張名片相當。
與之相匹配的是強大的性能,M.2加速卡擁有高達32TOPs的算力以及60GB/s的內(nèi)存帶寬,功耗也被嚴格控制在8w以下,同時可支撐大模型在AI PC等設備上運行,適配了Deepseek、Llama3-8B、Stable Diffusion、通義千問等開源模型。
為了讓M.2加速卡與PC自然融合,芯動力采用扇出型封裝,用玻璃載板替代ABF材料,既減小了芯片面積,還實現(xiàn)了低成本先進封裝。
值得一提的是,端側(cè)AI應用開發(fā)的需求多樣化,因此AI芯片需要降低開發(fā)者的軟件適配和調(diào)試難度、成本,讓其更容易實現(xiàn)AI應用的兼容,幫助其更快開發(fā)出相應應用。
在此基礎上,AE7100實現(xiàn)從底層指令集到上層驅(qū)動的全面兼容,沿用英偉達軟件棧,并進行了指令集、驅(qū)動層和開發(fā)庫的優(yōu)化,提升開發(fā)效率與邏輯實現(xiàn)的直觀性。
同時,由于M.2加速卡兼容CUDA和ONNX,能夠滿足各類AI應用的多樣化需求,其高算力和內(nèi)存帶寬能確保數(shù)據(jù)的高效穩(wěn)定處理與傳輸。無論是圖像識別、自然語言處理等需要大量數(shù)據(jù)運算的AI任務,還是對數(shù)據(jù)實時性要求高的場景,該加速卡都能保障數(shù)據(jù)處理和傳輸?shù)捻槙?,避免因算力不足或?shù)據(jù)傳輸瓶頸導致的應用性能下降。
在AI和非AI設備上,M.2加速卡都實現(xiàn)了兼容。如AI智能調(diào)整、隱私保護等,聯(lián)想AI Monitor內(nèi)置M.2加速卡,可以實現(xiàn)監(jiān)控用戶的動作和姿勢,實時調(diào)整屏幕的傾斜角度和高度,以及用戶離開電腦前自動模糊屏幕等;對于非AI設備,聯(lián)想AI Monitor可以與其配合使用,利用M.2加速卡的算力處理來自用戶的請求。
可以看出,M.2加速卡針對端側(cè)設備部署大模型的優(yōu)化是全方位的。也正因如此,在當前端側(cè)AI發(fā)展浪潮下,全球AI PC巨頭聯(lián)想選擇了與芯動力聯(lián)手。
將視角拉長,我們發(fā)現(xiàn),這正是芯動力在AI時代精準洞察行業(yè)趨勢,積累勢能的最好體現(xiàn)。
03.“六邊形戰(zhàn)士”劍指邊緣AI契合端側(cè)大模型部署痛點
想要剖析芯動力在當下的優(yōu)勢,可以從其針對并行計算設計的芯片架構(gòu)說起。
芯動力將其自研的RPP架構(gòu)稱作“六邊形戰(zhàn)士”,主要解決的就是高性能、通用性可以兼得的難題。
這一架構(gòu)既結(jié)合了NPU的高效率與GPU的高通用性優(yōu)勢,更具備DSP的低延時,可滿足高效并行計算及AI計算應用,如圖像計算、視覺計算、信號處理計算等,大大提高了系統(tǒng)的實時性和響應速度。
芯動力的優(yōu)勢在于,其是首家采用CUDA作為芯片架構(gòu)的設計方向,利用數(shù)據(jù)流結(jié)構(gòu)避免數(shù)據(jù)與計算單元間反復調(diào)用帶來的效率損失。并且其具有編譯器、運行時環(huán)境、高度優(yōu)化的RPP庫,可全面兼容CUDA的端到端完整軟件棧,實現(xiàn)邊緣AI應用的快速高效部署。
這契合了當下大模型部署在端側(cè)設備的諸多痛點。
正如聯(lián)想相關(guān)負責人所說:“dNPU代表了未來大模型在PC等本地端推理的技術(shù)方向和趨勢。”
展望未來,該芯片可以提升大模型在端側(cè)部署時的推理速度,并降低功耗、提升能效,推動多元化AI應用涌現(xiàn)的同時,為AI PC帶來更多增長空間?;蛟S在未來,dNPU對PC的加持會使其成為與GPU類似的電腦標配。
此外,dNPU可以以獨立的標準化插件存在,給用戶提供了更高的性價比和靈活性,如果其對生成式AI能力沒有更高需求,用戶可以不采用dNPU。反之,若將dNPU集成至CPU中,會導致產(chǎn)品價格過高,降低用戶的購買欲望。
或許在不遠的將來,dNPU就會作為標準化插件,廣泛出現(xiàn)在市面上所有可選擇配置的電腦機型中。邊緣AI時代的爆發(fā)已經(jīng)有跡可循。
邊緣計算作為云端算力有效補充,同樣是大模型落地的必然趨勢。
大模型由于參數(shù)規(guī)模龐大、計算復雜度高,對算力的需求極為嚴苛,將大模型部署在云端,雖然能利用強大的云端算力,但數(shù)據(jù)往返云端的過程會產(chǎn)生不可忽視的延遲,這對于如自動駕駛、智能安防等對實時性要求極高的應用場景而言是致命的。
DeepSeek的出現(xiàn),意味著邊緣AI競賽來到新的節(jié)點。在邊緣設備上運行更復雜、更強大的AI模型成為現(xiàn)實,吸引了眾多企業(yè)和開發(fā)者投身于邊緣AI領域的創(chuàng)新與競爭。
在這之前,芯動力基于RPP架構(gòu)打造的AI芯片,已經(jīng)憑借高性能、低功耗、低成本等優(yōu)勢,在泛安防/邊緣服務器、工業(yè)影像/機器視覺、信號處理/醫(yī)療影像、機器人等邊緣AI應用市場有眾多應用落地,并與浪潮信息等眾多重磅玩家達成戰(zhàn)略合作。
可以確定的是,芯動力RPP芯片架構(gòu)的應用潛力正被無限釋放出來,看到這一發(fā)展趨勢的芯動力,也加快了產(chǎn)品的發(fā)布節(jié)奏。據(jù)了解,今年,芯動力將推出基于RPP集成Chiplet的8nm R36芯片,2027年將推出更高性能的3nm R72芯片。
04.結(jié)語:RPP架構(gòu)為邊緣AI時代爆發(fā)積勢
AI時代的產(chǎn)業(yè)發(fā)展速度之快、變化之多可謂有目共睹,從日常生活中的智能語音助手,到工業(yè)領域的智能生產(chǎn)系統(tǒng),AI的應用正以前所未有的廣度與深度滲透進各個行業(yè)。這一浪潮下,AI芯片需要具備更強大的計算能力以滿足復雜運算需求,才能承接住這一波市場紅利。
因此,精準洞察產(chǎn)業(yè)發(fā)展趨勢、堅持自研創(chuàng)新、將自身業(yè)務體系做到極致才能有效應對市場變化。芯動力RPP架構(gòu)的出現(xiàn)就是很好的例證,未來,其將基于這一“六邊形戰(zhàn)士”帶給邊緣AI時代什么樣的驚喜,我們拭目以待。