• 正文
    • ChatGPT大潮下,NPU的空間變大了
    • “自研NPU”為何受推崇?
    • NPU研發(fā)難在哪里?
    • NPU IP將走向何種模式?
    • NPU的應用場景在哪里?
    • 寫在最后
  • 推薦器件
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

AI大爆炸,NPU的大時代開啟

原創(chuàng)
2023/04/03
4589
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

伴隨AI大時代一起來臨的,還有NPU。

算力、多樣算力需求推動了芯片物種大爆發(fā),NPU就是代表之一。你可以在很多支持AI應用的處理器或SoC中發(fā)現(xiàn)它的身影,比如蘋果A15、特斯拉FSD、地平線征程系列、OPPO、馬里亞納X芯片等。而不止這些規(guī)模大、性能高的SoC芯片,甚至一些微控制器、應用處理器也開始集成NPU模塊,以滿足智能終端、智能邊緣的需求。

一些趨勢正在發(fā)生:智能駕駛、自動駕駛的算力需求不斷“卷”出新高度; ChatGPT等生成式AI引爆的算力需求將從云端傳導至邊緣、端側……

未來,NPU會因AI達到什么樣的高度?

ChatGPT大潮下,NPU的空間變大了

NPU(Neural-network Processing Unit,神經(jīng)網(wǎng)絡處理器),作為一類基于DSA(Domain Specific Architecture)領域專用架構技術的處理器,相比于CPU、GPU等通用處理器,從硬件架構上可以說就是為AI而生的,因此更適合于神經(jīng)網(wǎng)絡運算,可專用于給AI做硬件加速。

不過,在AI大潮的裹挾下,各類算力芯片紛紛進行升級。GPU、FPGA自不必說,還有Arm v9、x86 CPU等都注重AI/機器學習方面的能力提升……

這同時也帶來一個問題:隨著異構計算平臺中,各類處理器所能提供的AI能力不斷增強, NPU一直強調的高能效,領先幅度會不會縮小?它未來的發(fā)展空間會受到影響嗎?

安謀科技產(chǎn)品總監(jiān)楊磊認為,各類處理器確實都在順應AI趨勢進行升級,這是一個相輔相成的過程。背后有市場需求的提升,有強烈的AI訴求,其實是把基礎算力市場的蛋糕變得更大了,這是從根本上推進不同產(chǎn)品向前演進的核心驅動力。

其次,應用需求會越來越豐富,包括成本、性能、功能特性等核心指標,很難通過一種方案或一種架構去滿足所有,還是需要各類處理器的創(chuàng)新聯(lián)動,以更高的異構水平來滿足市場的訴求。

以ChatGPT為例,它其實催生了對算力需求指數(shù)級的提升?!霸贫说男枨笤缤頃鲗У蕉藗?,而端側的CPU能力是不足以負擔的。當這個需求下放下來之后,NPU可以發(fā)揮的空間其實更大了”,楊磊談到。

安謀科技NPU研發(fā)高級總監(jiān)孫錦鴻告訴<與非網(wǎng)>,AI最終要走向通用、去賦能千行百業(yè),這是一個確定的方向。目前看來,ChatGPT千億級別的訓練參數(shù)已經(jīng)非常龐大了,如果要把它推到端側應用,一方面,需要進行一些裁剪;另一方面,也要求NPU架構的升級迭代。ChatGPT的基本結構是基于Transformer模型,從算子角度來看,除了MAC算力,還需要關注到其他的運算要求,而這都會給算子提出新要求,也需要NPU架構上的更新,去更好地滿足這類大模型應用的需求。

“自研NPU”為何受推崇?

在所有內置NPU模塊的處理器或SoC芯片中,越來越多的廠商走上了“自研NPU ”這條路。文章開頭列舉的一些芯片之外,近期值得關注的一件事是:NXP在它最新的應用處理器i.MX 95中,放棄了第三方NPU IP,轉而采用自研的NPU IP進行片上AI加速。

自研NPU的風潮已經(jīng)席卷至嵌入式領域。

對于這一舉措,NXP方面表示,這是其加速器產(chǎn)品和業(yè)務戰(zhàn)略的一部分。一方面,有了硬件NPU IP,意味著軟件開發(fā)環(huán)境可以成為其AI加速芯片部件的統(tǒng)一因素。另一方面,AI工作負載和模型仍處在快速的動態(tài)發(fā)展中,這會導致對軟件的依賴度增大,而硬件產(chǎn)品則必須要與之相匹配。

不論是從軟硬件協(xié)同設計、打造更好的差異化優(yōu)勢,還是從生態(tài)布局等因素出發(fā),NXP的做法也代表自研NPU廠商的普遍心態(tài)。

NPU研發(fā)難在哪里?

對于試圖布局NPU研發(fā)的廠商來說,一個首要的門檻是人才,需要對軟硬件全棧進行投入,包括IP開發(fā)、SDK開發(fā)等。

其次要明白:與CPU、GPU等通用處理器開發(fā)相比,NPU最大的開發(fā)挑戰(zhàn)是什么?

對于CPU來說,更注重的是控制流,用更高的頻率去處理新數(shù)據(jù),它強調的是通用的控制化和兼容性,兼顧面積、功耗、內存管理等設計。CPU的編程語言經(jīng)過多年發(fā)展,接口已經(jīng)非常符合現(xiàn)在的編程規(guī)范和編程習慣了,能最快地進行算子的分析。

GPU則是去掉了CPU的控制流方式,用更簡單的控制流實現(xiàn)更并行的數(shù)據(jù)流,在軟件層面、硬件層面都更注重并行擴展的能力。英偉達的CUDA已經(jīng)建立起了豐富的生態(tài),不過它更偏向通用方式去解決問題,AI運算的效能提升較難。

結合以往處理器的優(yōu)缺點,孫錦鴻認為,NPU IP的開發(fā)從一開始就要注重兩個基本點:

第一,要提供相對簡單的控制流,實現(xiàn)定制化算子的并行數(shù)據(jù)處理,從而最大提高利用率。第二,是友好的編程接口,在高效處理AI數(shù)據(jù)的同時,要容易落地,同時也要考慮定制化編程的需求。

他以安謀科技新一代“周易”X2 NPU采用的第三代“周易”架構的優(yōu)化方向指出,新架構更注重并行性和可擴展性,核心的設計思想就是在指令和數(shù)據(jù)處理單元的同構計算中,做到了最大并行。如果是異構,會將數(shù)據(jù)的Graph OP、channel、batch幾個緯度做并行,在同構和異構單元里得到統(tǒng)一。在此基礎上,再擴展核和Cluster,通過不同顆粒度的并行性來實現(xiàn)整體架構的強擴展性。然后,再通過統(tǒng)一的OpenCL界面把不同擴展性的計算單元、不同的核通過統(tǒng)一的編程方式,提供一致的用戶體驗。

而之所以強調架構的可擴展性,因為AI的模型、算子都在快速發(fā)展中,就以ChatGPT以及汽車領域常見的Transformer模型為例,其結構靈活,需要NPU架構具備相當?shù)撵`活性和高速的運算效率,同時考慮到未來網(wǎng)絡變種帶來的新設計要求。只有做好擴展性,才能應對這些動態(tài)的挑戰(zhàn),在此基礎上高效發(fā)揮算力的效能。

NPU IP將走向何種模式?

統(tǒng)計國內過去一年60個NPU芯片項目發(fā)現(xiàn),其中約55%(33個方案)用的都是自研NPU,剩下的項目采用了包括“周易”和其他的第三方IP。這意味著,樣本數(shù)據(jù)中一半以上的市場都被“自研”拿下,這對獨立的NPU IP企業(yè)來說,無疑是挑戰(zhàn)。

“這確實是一個很現(xiàn)實的問題”,楊磊有感而發(fā)地說,“我們分析了大量自研NPU的訴求,其實可以分為兩類:一是來自用戶端的差異化訴求,希望可以實現(xiàn)獨到的創(chuàng)新點;二是芯片廠商希望結合特定的應用場景做專門的優(yōu)化?!?/p>

不論是從產(chǎn)業(yè)鏈哪一環(huán)的需求出發(fā),自研NPU都有其必要性。不過,這其中存在一些“重復造輪子”、造成產(chǎn)業(yè)資源浪費的工作。比如在一些AI應用中,如結構化的檢測、識別、分割等等,其實底層的開發(fā)工作很相像。

此外還有部署方案時,由多種硬件帶來的軟件移植的工作量。因為各家的方案都不太一樣,提供的軟件工具鏈也不一樣,因此在軟件開發(fā)和移植時,存在大量的額外工作。

在楊磊看來,就像CPU的發(fā)展歷程一樣,NPU的方案類型最終也將走向收斂,且隨著應用的增加,生態(tài)力量會越來越強。

“我們也在思考和改進IP商業(yè)模式本身。傳統(tǒng)的IP模式是做一個標準版本授權給用戶,現(xiàn)在我們也在考慮一些定制化的需求,通過定制化IP來滿足特定需求”,楊磊表示,“除了商業(yè)模式,軟件生態(tài)的建設是未來的重點,因為NPU承載AI專用的加速功能,不同應用場景側重的方向會有不同,因此要考慮定制的、垂直場景的需求?!?/p>

“周易”X2 NPU就已經(jīng)在支持自定義算子、滿足各種模型部署需求的基礎上,開始面向各類應用場景提供定制化AI解決方案,以進一步滿足客戶在智能駕駛、手機影像AI處理、人機交互等場景中的差異化需求。

值得注意的是,安謀科技在“周易”X2 NPU推出的同時,宣布了NPU軟件開源計劃。根據(jù)這一計劃,安謀科技第一步將開放NPU中間表示層規(guī)范、模型解析器、模型優(yōu)化器、驅動等,并向相關合作伙伴提供“周易”Compass軟件平臺,包括軟件模擬器、調試器、C編譯器等在內的多種軟件工具。后續(xù)還將逐步開放更多資源,如模型量化、算子實現(xiàn)等源代碼。

“當前,整個NPU的硬件平臺其實是極度碎片化的,幾乎每一家硬件供應商都有自己的軟件工具鏈,當它們提供給應用開發(fā)者來使用時,對應的是極其復雜和繁瑣的部署和移植工作,也極大地增大了應用開發(fā)的創(chuàng)新代價”, 楊磊談到,“在這樣的現(xiàn)狀面前,開源就成了一個產(chǎn)業(yè)和用戶需求驅動下的決定?!?/p>

一方面,NPU芯片廠商在開發(fā)設計時,對軟件編譯器、調優(yōu)工具等有著明確的開源訴求。另一方面,當面向最終的應用場景,開源的訴求也越來越明顯。特別是在汽車領域,一些算法、數(shù)據(jù)相當于是“黑盒”,這就需要NPU盡可能開放,才能推動更好的合作互動。

當真正走向開源之后,直接受益的首先是軟件開發(fā)者,以滿足應用移植和部署時對白盒開發(fā)的需求,大約可節(jié)省50%的工作量;其次,開源便于跨越不同的硬件架構,共建開源的統(tǒng)一的軟件生態(tài),也有利于AI生態(tài)的整體發(fā)展。

NPU的應用場景在哪里?

NPU的突出優(yōu)勢就是運行AI算法的效能——而這往往在小型終端上更受重視。這是否決定了NPU的主要應用場景就是在端側或邊緣側?它有進軍云端市場的潛力嗎?

在楊磊看來,端側、云端市場其實都對NPU有強烈的訴求和應用空間,不過,NPU先將端側市場作為切入點,再布局邊緣計算。目前的市場需求已經(jīng)足夠豐富,小到錄音筆、點讀筆、手機,大到ADAS輔助駕駛、自動駕駛,已經(jīng)給了NPU足夠的施展空間,但是從技術路線和架構的演進方向上,未來也會考慮云邊端一體的可能性。

在安謀科技最新發(fā)布的“周易”X2 NPU中,就展現(xiàn)了這樣的趨勢:支持多核Cluster,支持寬泛的算力,從10TOPS-320TOPS;支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合計算,計算效率與計算密度得到了提升。

寫在最后

所有落地的AI應用中,都需要硬件上的算力支持。就比如火熱的自動駕駛,隨著汽車中攝像頭毫米波雷達、激光雷達,以及超聲波雷達等環(huán)境感知傳感器的增多,自動駕駛系統(tǒng)收集的傳感器數(shù)據(jù)將會更多,對自動駕駛計算芯片的算力要求將顯著提升,這對NPU是一個大市場。不過,越是如此,NPU越要深刻理解市場的要求,才能真正抓住機會。

當然,AI生態(tài)也不止NPU一個環(huán)節(jié),不論是開源,還是其他跨越產(chǎn)業(yè)鏈上下游參與者的合作,都有助于打破AI的落地難題,有益于AI的生態(tài)繁榮。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
ATTINY85-20SUR 1 Atmel Corporation RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PDSO8, 0.208 INCH, GREEN, EIAJ, PLASTIC, SOIC-8

ECAD模型

下載ECAD模型
$1.43 查看
CP2102N-A02-GQFN28R 1 Silicon Laboratories Inc USB Bus Controller, CMOS, QFN-28

ECAD模型

下載ECAD模型
$2.5 查看
STM32F030C8T6 1 STMicroelectronics Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU

ECAD模型

下載ECAD模型
$3.22 查看

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄