国产午夜在线精品电影,好吊妞国产精品免费播放,国产很爽的超薄丝袜脚交网站

當(dāng)GPU以其強(qiáng)大的并行計(jì)算能力，登上AI算力王座時，AI芯片領(lǐng)域的競爭在日趨激烈。其中，神經(jīng)網(wǎng)絡(luò)處理器（NPU）作為一股重要的力量，也在悄然崛起。

就像GPU從最初的圖像渲染和通用并行計(jì)算，逐步引入越來越多的神經(jīng)網(wǎng)絡(luò)功能（比如 Tensor Cores、Transformer等），NPU 也在“雙向奔赴”，在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，融入越來越強(qiáng)大的通用計(jì)算功能。

由于NPU針對神經(jīng)網(wǎng)絡(luò)計(jì)算進(jìn)行了專門的優(yōu)化，在處理復(fù)雜神經(jīng)網(wǎng)絡(luò)算法時有更高的效率和更低的能耗，特別是在端側(cè)和邊緣側(cè)，能夠?yàn)锳I應(yīng)用提供有力的支撐。從近期的種種市場動態(tài)來看，NPU有望開啟大規(guī)模商用時代。

國產(chǎn)NPU IP持續(xù)上量

近年來，國產(chǎn)NPU最顯著的應(yīng)用就是手機(jī)，比如華為的麒麟9000處理器，通過對ISP和NPU進(jìn)行融合，大大提升了數(shù)據(jù)的緩沖和處理效率；OPPO曾經(jīng)的自研NPU馬里亞納X，在拍照、拍視頻等大數(shù)據(jù)流場景下實(shí)現(xiàn)了更好的運(yùn)算效率，助OPPO拉開了在高端智能手機(jī)領(lǐng)域的體驗(yàn)差距。

隨著AI需求逐漸從云端傳導(dǎo)到邊緣和端側(cè)，端、邊市場的AI算力需求在逐漸爆發(fā)，推動新一輪本地AI算力的升級潮，而NPU有望成為本地AI任務(wù)的算力主力。

芯原近日宣布，集成其NPU IP的AI芯片在全球范圍內(nèi)出貨超過1億顆，已被72家客戶用于128款A(yù)I芯片中，用于物聯(lián)網(wǎng)、可穿戴設(shè)備、智慧家居、安防監(jiān)控、汽車電子等10個市場領(lǐng)域。

芯原的NPU基于GPU架構(gòu)體系進(jìn)行優(yōu)化，利用其可編程、可擴(kuò)展及并行處理能力，為各類主流AI算法提供硬件加速的微處理器技術(shù)。最新一代NPU架構(gòu)包括GPGPU處理模塊PPU和AI處理模塊Tensore Core，GPGPU支持大規(guī)模通用計(jì)算和類ChatGPT應(yīng)用，Tensor Core在處理器架構(gòu)、AI軟件框架及工具、功耗與效能等方面進(jìn)行創(chuàng)新，在卷積神經(jīng)網(wǎng)絡(luò)、高算力低功耗等技術(shù)上實(shí)現(xiàn)了突破。通過NPU IP架構(gòu)和GPU的融合，可以支持圖形渲染、通用計(jì)算以及AI處理。

圖：芯原 NPU IP+GPU IP融合的計(jì)算平臺（來源：芯原官微）

芯片IP設(shè)計(jì)與服務(wù)供應(yīng)商安謀科技，在成立之初即開始自研首款“周易”NPU，目前該產(chǎn)品線已迭代了Z系列和X系列的多款產(chǎn)品，滿足各種端側(cè)硬件設(shè)備的不同AI計(jì)算需求，應(yīng)用于中高端安防、智能家居、移動設(shè)備、物聯(lián)網(wǎng)、智能座艙、ADAS、邊緣服務(wù)器等市場。

最新的“周易”NPU采用第三代“周易”架構(gòu)，在算力、精度、靈活性等方面進(jìn)行了大幅提升，支持多核Cluster，最高可達(dá)320TOPS子系統(tǒng)，并通過TSM任務(wù)調(diào)度充分發(fā)揮計(jì)算單元效能以及采用i-Tiling技術(shù)大幅減少帶寬，支持大模型的基礎(chǔ)架構(gòu)Transformer。

圖：新一代“周易”NPU主要功能升級（來源：安謀科技官網(wǎng)）

據(jù)了解，在下一代“周易”NPU的設(shè)計(jì)上，安謀科技將從精度、帶寬、調(diào)度管理、算子支持等多個方面對主流大模型架構(gòu)進(jìn)行迭代優(yōu)化，為端側(cè)AI落地提供關(guān)鍵性的算力支撐。商業(yè)化落地方面，目前“周易”NPU已和全志科技、芯擎科技、芯馳科技等多家本土芯片廠商實(shí)現(xiàn)了合作。

巨頭紛紛入場，生態(tài)快速成長的訊號

隨著生成式AI的應(yīng)用場景不斷擴(kuò)大，NPU能夠滿足基于Transformer架構(gòu)的大模型需求，有望在這一趨勢下滲透到更多深層場景，進(jìn)一步拓展產(chǎn)業(yè)生態(tài)，特別是在巨頭的推動下，有望迎來高速增長。

高通最近就提出，通過NPU和異構(gòu)計(jì)算將開啟終端側(cè)生成式AI時代。其Hexagon NPU面向低功耗、高性能的AI推理而設(shè)計(jì)，通過定制設(shè)計(jì)NPU和控制指令集架構(gòu)（ISA），能夠快速進(jìn)行設(shè)計(jì)演進(jìn)和擴(kuò)展。

根據(jù)官方資料，高通的DSP控制和標(biāo)量架構(gòu)奠定了NPU的基礎(chǔ)。多年來，通過融入標(biāo)量、向量和張量加速器以及分組卷積等改進(jìn)，不斷進(jìn)行了提升。迭代到目前第三代驍龍8中的Hexagon NPU是專門針對終端側(cè)生成式AI大模型推理的最新設(shè)計(jì)，包括了跨整個NPU的微架構(gòu)升級、微切片推理升級等，為持續(xù)的AI推理實(shí)現(xiàn)了98%的性能提升和40%的能效提升。

從架構(gòu)路線來看，高通認(rèn)為由DSP架構(gòu)入手打造NPU是正確選擇，因?yàn)榭梢愿纳瓶删幊绦裕⒛軌蚓o密控制用于AI處理的標(biāo)量、向量和張量運(yùn)算。

而除了高通，兩大處理器巨頭英特爾和AMD也在積極擁抱NPU。

去年12月8日，AMD發(fā)布了銳龍8040系列處理器，最核心的變化之一就是新增了AI計(jì)算單元。根據(jù)AMD的說法，得益于NPU的加入，銳龍8040系列處理器的AI算力從10TOPS提升到了16TOPS，性能提升幅度達(dá)到了60%。這讓銳龍8040系列處理器在LLM等模型性能更加突出，例如Llama 2大語言模型性能提升40%，視覺模型提升40%。

一周之后，英特爾新一代酷睿Ultra移動處理器正式發(fā)布，這是其40年來第一個內(nèi)建NPU的處理器，用于在PC上帶來高能效的AI加速和本地推理體驗(yàn)，這也是英特爾客戶端處理器路線圖的一個轉(zhuǎn)折點(diǎn)。英特爾將NPU與CPU、GPU共同視作AI PC的三個底層算力引擎。
據(jù)其介紹，2024年，將有230多款機(jī)型搭載酷睿Ultra。

盡管巨頭在NPU的打造路線上各有千秋，但是都無一例外地看準(zhǔn)了一個機(jī)會——端側(cè)AI，而擁有專門的NPU成為端側(cè)AI的一大特點(diǎn)，NPU正在成為本地運(yùn)行AI任務(wù)的主力。
當(dāng)前，高通主要以AI手機(jī)、XR、AI PC等為主，AMD和英特爾則主要在AI PC布局。

AI手機(jī)方面，IDC直接依據(jù)NPU算力將其分為兩類，一類是已經(jīng)在市面上銷售了近十年的硬件賦能AI手機(jī)（≤30NPU TOPS）：使用加速器或除主要應(yīng)用處理器之外的專用處理器，以較低功耗運(yùn)行端側(cè)的AI。這類手機(jī)最近轉(zhuǎn)向使用NPU內(nèi)核，使用int-8 數(shù)據(jù)類型，性能達(dá)30 TOPS。端側(cè)AI的示例包括自然語言處理（NLP）和計(jì)算攝影。

另一類則是最新一代的AI手機(jī)（>30 NPU TOPS）：這些智能手機(jī)使用能夠更快、更高效地運(yùn)行端側(cè)生成式AI模型的SoC，并且使用int-8數(shù)據(jù)類型的NPU性能至少為30 TOPS。端側(cè)的生成式AI示例包括Stable Diffusion和各種大型語言模型。這類智能手機(jī)在2023年下半年首次進(jìn)入市場。

AI PC方面，目前市場整體處于AI Ready向AI On的過渡階段。據(jù)Canalys預(yù)測，兼容AI的個人電腦有望在2025年滲透率達(dá)到37%，2027年兼容AI個人電腦約占所有個人電腦出貨量的60%，未來AI PC的主要需求來源為商用領(lǐng)域。同時AI PC將會為PC行業(yè)發(fā)展提供新動能，根據(jù)IDC預(yù)測，中國PC市場將因AI PC的到來，結(jié)束負(fù)增長，在未來5年中保持穩(wěn)定的增長態(tài)勢。

多模態(tài)、輕量化，促進(jìn)端側(cè)AI算力持續(xù)升級

AI一直致力于以技術(shù)實(shí)現(xiàn)計(jì)算機(jī)對于人類認(rèn)知世界方式的高度效仿。而多模態(tài)AI的興起，使得AI系統(tǒng)能夠更全面地理解和處理現(xiàn)實(shí)世界中的復(fù)雜信息。除傳統(tǒng)的語言以及圖像間的交互作用，其結(jié)合聲音、觸覺以及動作等多維度信息進(jìn)行深度學(xué)習(xí)，從而形成更準(zhǔn)確、更具表現(xiàn)力的多模態(tài)表示。這也是AI模型走向多模態(tài)的必然因素：跨模態(tài)任務(wù)需求+跨模態(tài)數(shù)據(jù)融合+對人類認(rèn)知能力的模擬。

目前看來，提供自然語音用戶界面以提高生產(chǎn)力、同時增強(qiáng)用戶體驗(yàn)的個人助手，正在成為流行的AI應(yīng)用。語音識別、大語言模型和語音模型，將以某種并行方式運(yùn)行，因此理想的情況是在NPU、GPU、CPU等處理器之間分布處理模型。對于端側(cè)設(shè)備來說，比如PC，出于性能和能效考慮，應(yīng)當(dāng)盡可能在NPU上運(yùn)行。

根據(jù)Trendforce，微軟計(jì)劃在Windows12為AI PC設(shè)置最低門檻，需要至少40TOPS算力和16GB內(nèi)存。也就是說，PC芯片算力跨越40TOPS門檻將成為首要目標(biāo)，這也將進(jìn)一步推進(jìn)NPU的升級方向，比如：提升算力、提高內(nèi)存、降低功耗，芯片持續(xù)進(jìn)行架構(gòu)優(yōu)化、異構(gòu)計(jì)算優(yōu)化和內(nèi)存升級。

此外還有輕量化模型發(fā)展趨勢，NPU芯片以其低功耗、高效率的特點(diǎn)，成為實(shí)現(xiàn)輕量化AI大模型在邊緣設(shè)備上運(yùn)行的關(guān)鍵。

自 2023 年起，大模型參數(shù)量出現(xiàn)顯著分化，輕量化模型的出現(xiàn)逐步推動AI向端側(cè)場景落地。比如最近就有谷歌發(fā)布的開源輕量化大模型 Gemma，該模型與多模態(tài)大模型Gemini采用相同的研究和技術(shù)構(gòu)建，有2B和7B兩個版本，可以直接在筆記本和臺式機(jī)部署。

由于輕量化模型可以降低在邊緣側(cè)部署的成本門檻，使模型的下游應(yīng)用程序適合于更多的應(yīng)用程序和用戶，因此為大模型推理計(jì)算從云端向邊緣端轉(zhuǎn)移提供了可能，使AI技術(shù)更廣泛地應(yīng)用于各種場景成為可能。

寫在最后

在AI從云到邊、端的下沉運(yùn)動中，不論是應(yīng)用類型的多樣化、還是技術(shù)本身的突破，或是巨頭的大規(guī)模開“卷”，都代表著NPU終于迎來重要拐點(diǎn)，有望開啟一個大規(guī)模商用的全新時代。

從早期主要面向音頻和語音AI應(yīng)用而設(shè)計(jì)，基于簡單的卷積神經(jīng)網(wǎng)絡(luò)（CNN）進(jìn)行標(biāo)量和向量數(shù)學(xué)運(yùn)算；再到拍照和視頻AI的興起，出現(xiàn)了基于Transformer、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、長短期記憶網(wǎng)絡(luò)（LSTM）和更高維度的卷積神經(jīng)網(wǎng)絡(luò)（CNN）等復(fù)雜的全新模型，NPU逐漸增加了張量加速器和卷積加速，處理效率大幅提升。

再到近兩年，隨著大語言模型（LLM）和大視覺模型（LVM）的爆發(fā)，模型的大小提升超過了一個數(shù)量級。我們看到，NPU不斷在功耗、性能、能效、可編程和面積之間尋求權(quán)衡，保持與AI發(fā)展方向的一致性，并始終在尋求更大的發(fā)展空間。

算力始終是AI應(yīng)用的基石，考慮到NPU的靈活性和高速的運(yùn)算效率，它是否有望到達(dá)GPU的高度，讓業(yè)界說一句：無NPU，不AI？

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
PIC32MX795F512LT-80I/PT	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下載ECAD模型	$11.46	查看
STM32F103RCT6TR	1	STMicroelectronics	Mainstream Performance line, Arm Cortex-M3 MCU with 256 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN	ECAD模型下載ECAD模型	$9.98	查看
AT32UC3A0512-ALUT	1	Microchip Technology Inc	IC MCU 32BIT 512KB FLASH 144LQFP	ECAD模型下載ECAD模型	$11.33	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險(xiǎn)等級

參考價(jià)格

更多信息

PIC32MX795F512LT-80I/PT

Microchip Technology Inc

32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

$11.46

查看

STM32F103RCT6TR

STMicroelectronics

Mainstream Performance line, Arm Cortex-M3 MCU with 256 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN

$9.98

查看

AT32UC3A0512-ALUT

Microchip Technology Inc

IC MCU 32BIT 512KB FLASH 144LQFP

$11.33

查看

與GPU雙向奔赴，NPU即將開啟大規(guī)模商用時代！

國產(chǎn)NPU IP持續(xù)上量

巨頭紛紛入場，生態(tài)快速成長的訊號

多模態(tài)、輕量化，促進(jìn)端側(cè)AI算力持續(xù)升級

寫在最后

推薦器件

相關(guān)推薦

與GPU雙向奔赴，NPU即將開啟大規(guī)模商用時代！

國產(chǎn)NPU IP持續(xù)上量

巨頭紛紛入場，生態(tài)快速成長的訊號

多模態(tài)、輕量化，促進(jìn)端側(cè)AI算力持續(xù)升級

寫在最后

推薦器件

相關(guān)推薦

與GPU雙向奔赴，NPU即將開啟大規(guī)模商用時代！

巨頭紛紛入場，生態(tài)快速成長的訊號

多模態(tài)、輕量化，促進(jìn)端側(cè)AI算力持續(xù)升級