• 正文
    • GPU+AI深度融合,打破傳統(tǒng)方案局限
    • 引入爆發(fā)式計(jì)算,平均功耗效率提升35%
    • 可編程架構(gòu)持續(xù)滿足AI演進(jìn)需求,NPU受挑戰(zhàn)
    • 一款 GPU,滿足更多任務(wù)
    • 同時(shí)處理圖形+AI,未來哪些潛在挑戰(zhàn)?
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

Imagination全新GPU,恐沖擊邊緣AI處理器格局

原創(chuàng)
7小時(shí)前
621
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

隨著邊緣AI應(yīng)用進(jìn)入爆發(fā)期,從智能終端到車載系統(tǒng),對(duì)邊緣側(cè)算力提出了前所未有的需求。系統(tǒng)性能、效率與靈活性等多重挑戰(zhàn),加劇了邊緣處理器的競(jìng)爭(zhēng)。

Imagination最新推出的E系列GPU,針對(duì)邊緣圖形處理與AI加速計(jì)算應(yīng)用,在給市場(chǎng)帶來新選擇的同時(shí),也給這一領(lǐng)域已有的處理器帶來潛在挑戰(zhàn),首當(dāng)其沖受到威脅的可能就是NPU。

E系列GPU具備兩項(xiàng)核心創(chuàng)新:

Neural Cores(神經(jīng)核):最高可擴(kuò)展至 200 TOPS(INT8/FP8),顯著提升 AI 與計(jì)算性能;Burst Processors(爆發(fā)式處理器):創(chuàng)新架構(gòu)設(shè)計(jì),使邊緣應(yīng)用中平均功耗效率提升35%。

針對(duì)AI工作負(fù)載,E系列GPU的INT8/FP8 算力可在2到200TOPS 之間擴(kuò)展,涵蓋圖形渲染、桌面和智能手機(jī)等領(lǐng)域,可實(shí)現(xiàn)自然語言處理、工業(yè)計(jì)算機(jī)視覺以及自動(dòng)駕駛等應(yīng)用。首款 E系列 GPU IP將于2025年秋季正式上市,目前已完成授權(quán)。汽車、消費(fèi)電子、桌面及移動(dòng)版本亦在同步開發(fā)中。

GPU+AI深度融合,打破傳統(tǒng)方案局限

目前,需同時(shí)處理圖形渲染與AI計(jì)算的場(chǎng)景中,常見的解決方案通常采用GPU與AI算力分離的設(shè)計(jì)架構(gòu),即獨(dú)立部署GPU和專用AI加速模塊。這種模式存在明顯的局限性:一方面,GPU和AI模塊各自需要配備獨(dú)立的內(nèi)存(RAM),導(dǎo)致硬件資源冗余;另一方面,兩者間的數(shù)據(jù)交互需通過外部通道完成,不僅增加傳輸延遲,還會(huì)因協(xié)同效率低下造成整體能效利用率降低。此外,這種分離式設(shè)計(jì)限制了算力調(diào)度的靈活性——GPU無法與AI模塊實(shí)現(xiàn)深度協(xié)作,任務(wù)只能在固定硬件單元中執(zhí)行,難以適應(yīng)動(dòng)態(tài)負(fù)載需求。

在這種局面下,一些改進(jìn)方案嘗試將部分AI算力嵌入GPU渲染單元。這樣雖然減少了硬件解耦帶來的問題,但仍需為AI計(jì)算分配專用內(nèi)存資源。同時(shí),AI運(yùn)算結(jié)果仍需與GPU內(nèi)部渲染管線進(jìn)行二次交互,這種混合架構(gòu)增加了數(shù)據(jù)處理路徑的復(fù)雜度,難以充分發(fā)揮異構(gòu)計(jì)算的協(xié)同潛力。

據(jù)Imagination中國(guó)區(qū)技術(shù)總監(jiān)艾克介紹,E系列GPU的核心創(chuàng)新就在于通過深度融合集成架構(gòu),解決了上述問題。通過將AI算力與GPU核心渲染管線(如主管線Primary Pipeline與二級(jí)管線Secondary Pipeline)深度融合,實(shí)現(xiàn)了硬件層面的統(tǒng)一調(diào)度與資源共享。

這樣帶來的好處包括:首先,AI計(jì)算單元可以和GPU共享寄存器和內(nèi)存系統(tǒng);其次,由于AI計(jì)算單元直接嵌入GPU流水線,中間數(shù)據(jù)無需跨模塊傳輸,實(shí)現(xiàn)了數(shù)據(jù)交互的優(yōu)化;第三,這一架構(gòu)設(shè)計(jì)符合OpenCL、Vulkan等通用計(jì)算框架的擴(kuò)展規(guī)范,也和NVIDIA CUDA理念高度相似。

這一架構(gòu)突破不僅解決了傳統(tǒng)GPU與AI加速器解耦設(shè)計(jì)的效率瓶頸,更通過硬件級(jí)融合,為異構(gòu)計(jì)算提供了高密度、低延時(shí)的協(xié)同計(jì)算范式。

引入爆發(fā)式計(jì)算,平均功耗效率提升35%

E系列引入全新爆發(fā)式處理器技術(shù),該技術(shù)通過縮短流水線深度、減少數(shù)據(jù)在GPU內(nèi)部的移動(dòng),實(shí)現(xiàn)了能效提升。在 AI 推理、游戲和用戶界面等工作負(fù)載下平均功耗效率再提升 35%。

據(jù)Imagination方面介紹,爆發(fā)式計(jì)算是E系列GPU中固有的,它深度集成于硬件底層,重構(gòu)了GPU的指令調(diào)度方式。通過動(dòng)態(tài)識(shí)別連續(xù)可歸類的背靠背(back to back)指令,它可以合并批量任務(wù),對(duì)盡可能多的數(shù)據(jù)進(jìn)行復(fù)用和共享,提高了數(shù)據(jù)利用率,減少指令解碼器的開銷。

更重要的是這種新的調(diào)度方法,不管是進(jìn)行圖像處理,還是進(jìn)行通用計(jì)算,還是人工智能計(jì)算,都可以有效利用爆發(fā)處理器的能力。

可編程架構(gòu)持續(xù)滿足AI演進(jìn)需求,NPU受挑戰(zhàn)

GPU作為可編程處理器,能夠持續(xù)應(yīng)對(duì)AI、計(jì)算和圖形工作負(fù)載的演進(jìn)需求。且E系列神經(jīng)核,通過在GPU內(nèi)部深度集成了AI加速能力,能夠與更廣泛的GPU及異構(gòu)計(jì)算軟件生態(tài)實(shí)現(xiàn)無縫協(xié)同,其算力可通過OpenCL 等主流 API直接調(diào)用,開發(fā)者借助oneAPI、Apache TVM 或 LiteRT等開放標(biāo)準(zhǔn)工具,能將工作負(fù)載遷移至神經(jīng)核。Imagination的計(jì)算庫(kù)與高度優(yōu)化的圖形編譯器,進(jìn)一步釋放了GPU的全部潛能。

Imagination方面指出,對(duì)于傳統(tǒng)的圖形與NPU分開的處理方式,或是SoC的配合方式,由于缺乏靈活性,且面積大、成本高,可能會(huì)面臨淘汰。

推測(cè)Imagination所指,主要是強(qiáng)調(diào)了E系列GPU IP重構(gòu)了圖形與AI計(jì)算的協(xié)同方式,進(jìn)而對(duì)傳統(tǒng)方案形成了替代優(yōu)勢(shì)。

可以從兩方面來看待,一部分是因?yàn)閭鹘y(tǒng)分立式架構(gòu)的固有短板,由于獨(dú)立部署GPU與NPU需分配兩套計(jì)算單元及配套內(nèi)存,導(dǎo)致芯片面積、成本攀升;且跨模塊數(shù)據(jù)交互依賴外部總線,時(shí)延高、帶寬受限,難以應(yīng)對(duì)實(shí)時(shí)性要求高的混合負(fù)載場(chǎng)景。

另一方面則從E系列GPU的核心創(chuàng)新來看,這是一種原生的異構(gòu)融合架構(gòu),通過將AI計(jì)算與圖形管線深度集成,在靈活性、效率方面都有優(yōu)化。并且,當(dāng)應(yīng)用場(chǎng)景需要更高的AI算力時(shí),可通過專用接口與外部NPU聯(lián)動(dòng),實(shí)現(xiàn)算力擴(kuò)展。

Imagination方面指出,NPU是為了特定目標(biāo)而設(shè)計(jì),比如5~7年前,NPU是為了去解決卷積神經(jīng)網(wǎng)絡(luò)(CNN)問題,但現(xiàn)在Transformer大模型應(yīng)用越來越普遍,那么如果五年之后,又會(huì)出現(xiàn)什么類型的模型?這是無法預(yù)測(cè)的,也是NPU面臨的一大挑戰(zhàn)。相對(duì)而言,GPU 具有很高的可編程性,可以應(yīng)對(duì)未來新的AI模型。

一款 GPU,滿足更多任務(wù)

當(dāng)代設(shè)備日益復(fù)雜,處理器需同時(shí)支持圖形與AI多項(xiàng)工作負(fù)載。為保障用戶體驗(yàn),實(shí)現(xiàn)高質(zhì)量服務(wù)(QoS)和清晰劃分任務(wù)優(yōu)先級(jí)至關(guān)重要。E系列在前代產(chǎn)品的多任務(wù)處理能力基礎(chǔ)上實(shí)現(xiàn)了增強(qiáng),將Imagination GPU支持的、具備硬件加速且零開銷的虛擬機(jī)數(shù)量從8個(gè)翻倍至16個(gè),并提供了先進(jìn)的QoS支持。E系列GPU的多核版本可以利用額外的核心來提升性能或增強(qiáng)靈活性。

對(duì)需要同時(shí)運(yùn)行圖形與計(jì)算任務(wù)的系統(tǒng)來說,E系列GPU能夠同時(shí)處理多種圖形工作負(fù)載、多種AI工作負(fù)載,或圖形與AI工作負(fù)載的組合。它提供了一種高度靈活的解決方案,既無需依賴額外的向量處理器或固定功能 AI 加速器,又能在降低整體系統(tǒng)設(shè)計(jì)成本的同時(shí),實(shí)現(xiàn)面向未來的可擴(kuò)展性。

Imagination這種通過同一IP覆蓋多樣差異化需求的方案,既具備較強(qiáng)的場(chǎng)景泛化能力,同時(shí)有助于客戶縮短產(chǎn)品研發(fā)周期,這是其獨(dú)到的競(jìng)爭(zhēng)力,也有助于開發(fā)者在多種應(yīng)用場(chǎng)景和設(shè)備上部署AI應(yīng)用。

根據(jù)Imagination方面的介紹,以下是其E系列GPU幾個(gè)典型的落地場(chǎng)景:

圖形與AI聯(lián)動(dòng)的創(chuàng)意增強(qiáng)場(chǎng)景:基于GPU渲染后的圖像,通過內(nèi)置AI算力實(shí)現(xiàn)超分辨率重建、光影智能優(yōu)化等,提升視覺效果?;蚴怯脩敉瓿苫A(chǔ)構(gòu)圖后,AI可即時(shí)生成風(fēng)格化特效或智能補(bǔ)全細(xì)節(jié),實(shí)現(xiàn)實(shí)時(shí)交互設(shè)計(jì)。

智能汽車是一大典型場(chǎng)景。比如車載娛樂系統(tǒng)中,可以用于后座多屏渲染場(chǎng)景,同時(shí)通過AI計(jì)算實(shí)現(xiàn)駕駛員狀態(tài)監(jiān)測(cè)、座艙語音交互等功能安全相關(guān)計(jì)算。

此外還有AR/VR設(shè)備、移動(dòng)終端等消費(fèi)電子場(chǎng)景中,2-200 TOPS的可配置算力,可以用于平衡AI推理速度與能耗效率,滿足實(shí)時(shí)手勢(shì)識(shí)別、圖像語義分割等需求。

同時(shí)處理圖形+AI,未來哪些潛在挑戰(zhàn)?

隨著設(shè)備端推理需求的持續(xù)增長(zhǎng),當(dāng)設(shè)備端GPU同時(shí)處理AI推理和圖形渲染時(shí),會(huì)面臨哪些硬件資源沖突?Imagination在創(chuàng)新架構(gòu)中又將如何實(shí)現(xiàn)動(dòng)態(tài)資源分配?

對(duì)此,Imagination方面表示,目前已經(jīng)在汽車等復(fù)雜設(shè)備中看到了這類沖突——單個(gè)GPU需要驅(qū)動(dòng)多個(gè)顯示器(如儀表盤、車載信息娛樂系統(tǒng)、導(dǎo)航或后排娛樂顯示屏)。隨著系統(tǒng)越來越多地將GPU用作AI等工作負(fù)載的并行計(jì)算平臺(tái)中,這個(gè)問題變得越來越重要。

例如,在執(zhí)行AI工作負(fù)載時(shí),確保用戶界面保持高響應(yīng)性至關(guān)重要。Imagination為多個(gè)GPU線程開發(fā)了一套豐富的QoS和優(yōu)先級(jí)功能,同樣適用于AI工作負(fù)載,使系統(tǒng)設(shè)計(jì)能夠精細(xì)調(diào)整工作負(fù)載優(yōu)先級(jí),并通過線程搶占、線程上下文切換超時(shí)和多層優(yōu)先級(jí)等硬件原生支持的功能確保優(yōu)先級(jí)得到維護(hù)。除此之外,當(dāng)需要更穩(wěn)健的工作負(fù)載隔離時(shí),GPU支持基于硬件的虛擬化,可將GPU劃分為多個(gè)虛擬環(huán)境,確保分區(qū)之間無干擾。

此外,在支持PyTorch Mobile和LiteRT等API時(shí),算子的碎片化問題不可避免。對(duì)此,Imagination如何應(yīng)對(duì)?

據(jù)Imagination方面答復(fù),其重點(diǎn)是確保AI算子與GPU支持的功能實(shí)現(xiàn)最優(yōu)映射,這也再次體現(xiàn)出了與NPU相比的關(guān)鍵優(yōu)勢(shì):由于Imagination的GPU是高性能通用并行處理器,未來支持新AI算子只需更新驅(qū)動(dòng)即可。此外,由于市場(chǎng)對(duì)其GPU用作通用處理器的編程模型已非常熟悉,無論是由Imagination通過簡(jiǎn)單的驅(qū)動(dòng)更新實(shí)現(xiàn)新算子,還是由用戶使用標(biāo)準(zhǔn)通用GPU(GPGPU)編程模型實(shí)現(xiàn),都非常便捷。他強(qiáng)調(diào),支持未來算子的靈活性一直是行業(yè)面臨的一大難題,而基于E系列GPU的AI方案正是為解決這一問題而設(shè)計(jì)的。

Imagination

Imagination

Imagination Technologies,英國(guó)芯片設(shè)計(jì)商。

Imagination Technologies,英國(guó)芯片設(shè)計(jì)商。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄