• 正文
    • 國產(chǎn)NPU IP持續(xù)上量
    • 巨頭紛紛入場,生態(tài)快速成長的訊號
    • 多模態(tài)、輕量化,促進(jìn)端側(cè)AI算力持續(xù)升級
    • 寫在最后
  • 推薦器件
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

與GPU雙向奔赴,NPU即將開啟大規(guī)模商用時代!

原創(chuàng)
2024/03/09
4722
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

當(dāng)GPU以其強(qiáng)大的并行計(jì)算能力,登上AI算力王座時,AI芯片領(lǐng)域的競爭在日趨激烈。其中,神經(jīng)網(wǎng)絡(luò)處理器(NPU)作為一股重要的力量,也在悄然崛起。

就像GPU從最初的圖像渲染和通用并行計(jì)算,逐步引入越來越多的神經(jīng)網(wǎng)絡(luò)功能(比如 Tensor Cores、Transformer等),NPU 也在“雙向奔赴”,在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,融入越來越強(qiáng)大的通用計(jì)算功能。

由于NPU針對神經(jīng)網(wǎng)絡(luò)計(jì)算進(jìn)行了專門的優(yōu)化,在處理復(fù)雜神經(jīng)網(wǎng)絡(luò)算法時有更高的效率和更低的能耗,特別是在端側(cè)和邊緣側(cè),能夠?yàn)锳I應(yīng)用提供有力的支撐。從近期的種種市場動態(tài)來看,NPU有望開啟大規(guī)模商用時代。

國產(chǎn)NPU IP持續(xù)上量

近年來,國產(chǎn)NPU最顯著的應(yīng)用就是手機(jī),比如華為麒麟9000處理器,通過對ISP和NPU進(jìn)行融合,大大提升了數(shù)據(jù)的緩沖和處理效率;OPPO曾經(jīng)的自研NPU馬里亞納X,在拍照、拍視頻等大數(shù)據(jù)流場景下實(shí)現(xiàn)了更好的運(yùn)算效率,助OPPO拉開了在高端智能手機(jī)領(lǐng)域的體驗(yàn)差距。

隨著AI需求逐漸從云端傳導(dǎo)到邊緣和端側(cè),端、邊市場的AI算力需求在逐漸爆發(fā),推動新一輪本地AI算力的升級潮,而NPU有望成為本地AI任務(wù)的算力主力。

芯原近日宣布,集成其NPU IP的AI芯片在全球范圍內(nèi)出貨超過1億顆,已被72家客戶用于128款A(yù)I芯片中,用于物聯(lián)網(wǎng)、可穿戴設(shè)備、智慧家居、安防監(jiān)控、汽車電子等10個市場領(lǐng)域。

芯原的NPU基于GPU架構(gòu)體系進(jìn)行優(yōu)化,利用其可編程、可擴(kuò)展及并行處理能力,為各類主流AI算法提供硬件加速的微處理器技術(shù)。最新一代NPU架構(gòu)包括GPGPU處理模塊PPU和AI處理模塊Tensore Core,GPGPU支持大規(guī)模通用計(jì)算和類ChatGPT應(yīng)用,Tensor Core在處理器架構(gòu)、AI軟件框架及工具、功耗與效能等方面進(jìn)行創(chuàng)新,在卷積神經(jīng)網(wǎng)絡(luò)、高算力低功耗等技術(shù)上實(shí)現(xiàn)了突破。通過NPU IP架構(gòu)和GPU的融合,可以支持圖形渲染、通用計(jì)算以及AI處理。

圖:芯原 NPU IP+GPU IP融合的計(jì)算平臺(來源:芯原官微)

芯片IP設(shè)計(jì)與服務(wù)供應(yīng)商安謀科技,在成立之初即開始自研首款“周易”NPU,目前該產(chǎn)品線已迭代了Z系列和X系列的多款產(chǎn)品,滿足各種端側(cè)硬件設(shè)備的不同AI計(jì)算需求,應(yīng)用于中高端安防、智能家居、移動設(shè)備、物聯(lián)網(wǎng)、智能座艙、ADAS、邊緣服務(wù)器等市場。

最新的“周易”NPU采用第三代“周易”架構(gòu),在算力、精度、靈活性等方面進(jìn)行了大幅提升,支持多核Cluster,最高可達(dá)320TOPS子系統(tǒng),并通過TSM任務(wù)調(diào)度充分發(fā)揮計(jì)算單元效能以及采用i-Tiling技術(shù)大幅減少帶寬,支持大模型的基礎(chǔ)架構(gòu)Transformer。

圖:新一代“周易”NPU主要功能升級(來源:安謀科技官網(wǎng))

據(jù)了解,在下一代“周易”NPU的設(shè)計(jì)上,安謀科技將從精度、帶寬、調(diào)度管理、算子支持等多個方面對主流大模型架構(gòu)進(jìn)行迭代優(yōu)化,為端側(cè)AI落地提供關(guān)鍵性的算力支撐。商業(yè)化落地方面,目前“周易”NPU已和全志科技、芯擎科技、芯馳科技等多家本土芯片廠商實(shí)現(xiàn)了合作。

巨頭紛紛入場,生態(tài)快速成長的訊號

隨著生成式AI的應(yīng)用場景不斷擴(kuò)大,NPU能夠滿足基于Transformer架構(gòu)的大模型需求,有望在這一趨勢下滲透到更多深層場景,進(jìn)一步拓展產(chǎn)業(yè)生態(tài),特別是在巨頭的推動下,有望迎來高速增長。

高通最近就提出,通過NPU和異構(gòu)計(jì)算將開啟終端側(cè)生成式AI時代。其Hexagon NPU面向低功耗、高性能的AI推理而設(shè)計(jì),通過定制設(shè)計(jì)NPU和控制指令集架構(gòu)(ISA),能夠快速進(jìn)行設(shè)計(jì)演進(jìn)和擴(kuò)展。

根據(jù)官方資料,高通的DSP控制和標(biāo)量架構(gòu)奠定了NPU的基礎(chǔ)。多年來,通過融入標(biāo)量、向量和張量加速器以及分組卷積等改進(jìn),不斷進(jìn)行了提升。迭代到目前第三代驍龍8中的Hexagon NPU是專門針對終端側(cè)生成式AI大模型推理的最新設(shè)計(jì),包括了跨整個NPU的微架構(gòu)升級、微切片推理升級等,為持續(xù)的AI推理實(shí)現(xiàn)了98%的性能提升和40%的能效提升。

從架構(gòu)路線來看,高通認(rèn)為由DSP架構(gòu)入手打造NPU是正確選擇,因?yàn)榭梢愿纳瓶删幊绦裕⒛軌蚓o密控制用于AI處理的標(biāo)量、向量和張量運(yùn)算。

而除了高通,兩大處理器巨頭英特爾AMD也在積極擁抱NPU。

去年12月8日,AMD發(fā)布了銳龍8040系列處理器,最核心的變化之一就是新增了AI計(jì)算單元。根據(jù)AMD的說法,得益于NPU的加入,銳龍8040系列處理器的AI算力從10TOPS提升到了16TOPS,性能提升幅度達(dá)到了60%。這讓銳龍8040系列處理器在LLM等模型性能更加突出,例如Llama 2大語言模型性能提升40%,視覺模型提升40%。

一周之后,英特爾新一代酷睿Ultra移動處理器正式發(fā)布,這是其40年來第一個內(nèi)建NPU的處理器,用于在PC上帶來高能效的AI加速和本地推理體驗(yàn),這也是英特爾客戶端處理器路線圖的一個轉(zhuǎn)折點(diǎn)。英特爾將NPU與CPU、GPU共同視作AI PC的三個底層算力引擎。
據(jù)其介紹,2024年,將有230多款機(jī)型搭載酷睿Ultra。

盡管巨頭在NPU的打造路線上各有千秋,但是都無一例外地看準(zhǔn)了一個機(jī)會——端側(cè)AI,而擁有專門的NPU成為端側(cè)AI的一大特點(diǎn),NPU正在成為本地運(yùn)行AI任務(wù)的主力。
當(dāng)前,高通主要以AI手機(jī)、XR、AI PC等為主,AMD和英特爾則主要在AI PC布局。

AI手機(jī)方面,IDC直接依據(jù)NPU算力將其分為兩類,一類是已經(jīng)在市面上銷售了近十年的硬件賦能AI手機(jī)(≤30NPU TOPS):使用加速器或除主要應(yīng)用處理器之外的專用處理器,以較低功耗運(yùn)行端側(cè)的AI。這類手機(jī)最近轉(zhuǎn)向使用NPU內(nèi)核,使用int-8 數(shù)據(jù)類型,性能達(dá)30 TOPS。端側(cè)AI的示例包括自然語言處理(NLP)和計(jì)算攝影。

另一類則是最新一代的AI手機(jī)(>30 NPU TOPS):這些智能手機(jī)使用能夠更快、更高效地運(yùn)行端側(cè)生成式AI模型的SoC,并且使用int-8數(shù)據(jù)類型的NPU性能至少為30 TOPS。端側(cè)的生成式AI示例包括Stable Diffusion和各種大型語言模型。這類智能手機(jī)在2023年下半年首次進(jìn)入市場。

AI PC方面,目前市場整體處于AI Ready向AI On的過渡階段。據(jù)Canalys預(yù)測,兼容AI的個人電腦有望在2025年滲透率達(dá)到37%,2027年兼容AI個人電腦約占所有個人電腦出貨量的60%,未來AI PC的主要需求來源為商用領(lǐng)域。同時AI PC將會為PC行業(yè)發(fā)展提供新動能,根據(jù)IDC預(yù)測,中國PC市場將因AI PC的到來,結(jié)束負(fù)增長,在未來5年中保持穩(wěn)定的增長態(tài)勢。

多模態(tài)、輕量化,促進(jìn)端側(cè)AI算力持續(xù)升級

AI一直致力于以技術(shù)實(shí)現(xiàn)計(jì)算機(jī)對于人類認(rèn)知世界方式的高度效仿。而多模態(tài)AI的興起,使得AI系統(tǒng)能夠更全面地理解和處理現(xiàn)實(shí)世界中的復(fù)雜信息。除傳統(tǒng)的語言以及圖像間的交互作用,其結(jié)合聲音、觸覺以及動作等多維度信息進(jìn)行深度學(xué)習(xí),從而形成更準(zhǔn)確、更具表現(xiàn)力的多模態(tài)表示。這也是AI模型走向多模態(tài)的必然因素:跨模態(tài)任務(wù)需求+跨模態(tài)數(shù)據(jù)融合+對人類認(rèn)知能力的模擬。

目前看來,提供自然語音用戶界面以提高生產(chǎn)力、同時增強(qiáng)用戶體驗(yàn)的個人助手,正在成為流行的AI應(yīng)用。語音識別、大語言模型和語音模型,將以某種并行方式運(yùn)行,因此理想的情況是在NPU、GPU、CPU等處理器之間分布處理模型。對于端側(cè)設(shè)備來說,比如PC,出于性能和能效考慮,應(yīng)當(dāng)盡可能在NPU上運(yùn)行。

根據(jù)Trendforce,微軟計(jì)劃在Windows12為AI PC設(shè)置最低門檻,需要至少40TOPS算力和16GB內(nèi)存。也就是說,PC芯片算力跨越40TOPS門檻將成為首要目標(biāo),這也將進(jìn)一步推進(jìn)NPU的升級方向,比如:提升算力、提高內(nèi)存、降低功耗,芯片持續(xù)進(jìn)行架構(gòu)優(yōu)化、異構(gòu)計(jì)算優(yōu)化和內(nèi)存升級。

此外還有輕量化模型發(fā)展趨勢,NPU芯片以其低功耗、高效率的特點(diǎn),成為實(shí)現(xiàn)輕量化AI大模型在邊緣設(shè)備上運(yùn)行的關(guān)鍵。

自 2023 年起,大模型參數(shù)量出現(xiàn)顯著分化,輕量化模型的出現(xiàn)逐步推動AI向端側(cè)場景落地。比如最近就有谷歌發(fā)布的開源輕量化大模型 Gemma,該模型與多模態(tài)大模型Gemini采用相同的研究和技術(shù)構(gòu)建,有2B和7B兩個版本,可以直接在筆記本和臺式機(jī)部署。

由于輕量化模型可以降低在邊緣側(cè)部署的成本門檻,使模型的下游應(yīng)用程序適合于更多的應(yīng)用程序和用戶,因此為大模型推理計(jì)算從云端向邊緣端轉(zhuǎn)移提供了可能,使AI技術(shù)更廣泛地應(yīng)用于各種場景成為可能。

寫在最后

在AI從云到邊、端的下沉運(yùn)動中,不論是應(yīng)用類型的多樣化、還是技術(shù)本身的突破,或是巨頭的大規(guī)模開“卷”,都代表著NPU終于迎來重要拐點(diǎn),有望開啟一個大規(guī)模商用的全新時代。

從早期主要面向音頻和語音AI應(yīng)用而設(shè)計(jì),基于簡單的卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行標(biāo)量和向量數(shù)學(xué)運(yùn)算;再到拍照和視頻AI的興起,出現(xiàn)了基于Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)和更高維度的卷積神經(jīng)網(wǎng)絡(luò)(CNN)等復(fù)雜的全新模型,NPU逐漸增加了張量加速器和卷積加速,處理效率大幅提升。

再到近兩年,隨著大語言模型(LLM)和大視覺模型(LVM)的爆發(fā),模型的大小提升超過了一個數(shù)量級。我們看到,NPU不斷在功耗、性能、能效、可編程和面積之間尋求權(quán)衡,保持與AI發(fā)展方向的一致性,并始終在尋求更大的發(fā)展空間。

算力始終是AI應(yīng)用的基石,考慮到NPU的靈活性和高速的運(yùn)算效率,它是否有望到達(dá)GPU的高度,讓業(yè)界說一句:無NPU,不AI?

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險(xiǎn)等級 參考價(jià)格 更多信息
PIC32MX795F512LT-80I/PT 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

ECAD模型

下載ECAD模型
$11.46 查看
STM32F103RCT6TR 1 STMicroelectronics Mainstream Performance line, Arm Cortex-M3 MCU with 256 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN

ECAD模型

下載ECAD模型
$9.98 查看
AT32UC3A0512-ALUT 1 Microchip Technology Inc IC MCU 32BIT 512KB FLASH 144LQFP

ECAD模型

下載ECAD模型
$11.33 查看

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄