AI將如何改變PC市場(chǎng)格局,以及對(duì)內(nèi)存和存儲(chǔ)的影響
AI幾乎已經(jīng)無(wú)處不在。每一天,我們都能看到或聽(tīng)到AI的新進(jìn)展,或者使用由AI驅(qū)動(dòng)的應(yīng)用。從智能助手到自動(dòng)駕駛汽車(chē),AI正在改變?nèi)祟?lèi)與世界互動(dòng)的方式。當(dāng)AI與PC相結(jié)合,將為我們帶來(lái)什么?AI能否讓PC變得更智能、運(yùn)行速度更快、更好地滿足我們的個(gè)性化需求?
在本篇博客中,我們將探討AI如何改變PC市場(chǎng)格局,以及對(duì)內(nèi)存和存儲(chǔ)的影響。在2024年美國(guó)國(guó)際消費(fèi)電子展 (CES) 上,所有熱門(mén)話題都圍繞AI展開(kāi),超過(guò)50% 的報(bào)道都與AI有關(guān)。
AI的背后是各種大語(yǔ)言模型 (LLM) ,這些模型的開(kāi)發(fā)基于人類(lèi)過(guò)往積累的海量未標(biāo)記文本。
您可以使用自然語(yǔ)言向LLM提問(wèn),它們能以同樣自然的語(yǔ)言做出回答,就像人類(lèi)之間的交互一樣。這種能力建立在具有數(shù)十億個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò)之上,在某些情況下,多個(gè)神經(jīng)網(wǎng)絡(luò)連接在一起,合作生成內(nèi)容。當(dāng)前最熱門(mén)的LLM是ChatGPT和DALL-E,它們能夠根據(jù)用戶輸入的提示,生成仿佛真人作答的文本內(nèi)容,亦或是逼真且富有創(chuàng)意的圖像。為實(shí)現(xiàn)這些令人驚嘆的功能,LLM需要海量的算力和數(shù)據(jù)。因此,目前的LLM大都托管在云端,那里有它們需要的大量硬件基礎(chǔ)設(shè)施和網(wǎng)絡(luò)帶寬。
但是,AI的實(shí)現(xiàn)之地不應(yīng)局限在云端。將部分AI處理過(guò)程轉(zhuǎn)移到邊緣設(shè)備(即用戶端設(shè)備)上,具有很多優(yōu)勢(shì)。例如,邊緣AI處理可減少網(wǎng)絡(luò)延遲、保護(hù)用戶隱私、節(jié)省網(wǎng)絡(luò)成本,還支持在離線狀態(tài)使用AI功能。設(shè)想一下,如果可以使用自己的PC生成高質(zhì)量?jī)?nèi)容、編輯照片和視頻、轉(zhuǎn)錄語(yǔ)音、過(guò)濾噪音、識(shí)別人臉等等,而無(wú)需依賴(lài)云,是不是將更加方便和靈活?
為何看好AI PC?
PC并非唯一可從邊緣AI技術(shù)中受益的設(shè)備。智能手機(jī)、平板電腦、智能手表和其他小型電子設(shè)備也可利用AI來(lái)增強(qiáng)功能和性能。相比之下,PC具有一些獨(dú)特優(yōu)勢(shì),使其成為更適合邊緣AI落地的平臺(tái)。
首先,PC擁有更大的屏幕,可顯示更多信息,能夠提供更好的用戶體驗(yàn)。其次,PC擁有更大容量的電池,可運(yùn)行更多需要更長(zhǎng)時(shí)間的AI任務(wù)。第三,PC擁有更強(qiáng)的計(jì)算能力,可運(yùn)行更復(fù)雜、對(duì)算力要求更高的AI模型。
芯片制造商和軟件開(kāi)發(fā)商正在利用PC的這些優(yōu)勢(shì)。英特爾、AMD、高通、聯(lián)發(fā)科和Nvidia等公司正在其面向PC平臺(tái)的CPU和芯片組中嵌入性能越來(lái)越強(qiáng)的神經(jīng)處理引擎和/或集成顯卡,可提供數(shù)十TOPS(每秒萬(wàn)億次操作)的AI性能。微軟表示,今年發(fā)布的Windows 11操作系統(tǒng)新版本將利用CPU中內(nèi)嵌的AI引擎進(jìn)行優(yōu)化。微軟在AI時(shí)代的野心不難理解,該公司正在大力推廣旗下的Copilot,這是一項(xiàng)利用AI技術(shù)幫助用戶編寫(xiě)代碼、調(diào)試錯(cuò)誤并提出改進(jìn)建議的功能。一些頭部廠商還積極與獨(dú)立軟件供應(yīng)商 (ISV) 合作,幫助ISV推出更多AI優(yōu)化的應(yīng)用和功能,包括增強(qiáng)的視頻會(huì)議體驗(yàn)、照片編輯、語(yǔ)音到文本轉(zhuǎn)換、背景環(huán)境和噪音抑制,以及面部識(shí)別等等。這些正在開(kāi)發(fā)中的應(yīng)用將會(huì)給我們帶來(lái)怎樣的驚喜?是否會(huì)出現(xiàn)“殺手級(jí)應(yīng)用”?一切尚需觀察。但目前確實(shí)存在一些重要的現(xiàn)實(shí)問(wèn)題。例如,如何才能在PC上高效運(yùn)行AI模型?以及…?…
AI PC需要什么樣的硬件?
在PC上運(yùn)行AI模型的主要挑戰(zhàn)之一是模型的大小。AI模型(尤其是LLM)可能有數(shù)十億甚至數(shù)萬(wàn)億個(gè)參數(shù),需要大量存儲(chǔ)空間和內(nèi)存來(lái)存儲(chǔ)和加載。
美光的內(nèi)部實(shí)驗(yàn)表明,一個(gè)擁有700億個(gè)參數(shù)、4位精度的Llama2模型(用于自然語(yǔ)言生成的主流LLM)需要大約42GB的內(nèi)存才能完成加載并執(zhí)行推理,輸出速度為每秒1.4個(gè)Token,而普通PC無(wú)法提供這么多的內(nèi)存。這種矛盾是問(wèn)題的核心,也為AI PC的未來(lái)指明了方向。
未來(lái)將會(huì)出現(xiàn)針對(duì)特定功能的模型,可在保持準(zhǔn)確性的同時(shí)減小模型的大小。未來(lái)的模型很可能會(huì)分化。700億參數(shù)級(jí)別的大模型可用于內(nèi)存和存儲(chǔ)空間較大的高級(jí)系統(tǒng),運(yùn)行經(jīng)過(guò)精細(xì)微調(diào)并針對(duì)對(duì)話用例進(jìn)行優(yōu)化的應(yīng)用(如聊天補(bǔ)全)。此外,本地設(shè)備上的個(gè)人助理也可能需要大參數(shù)模型。少于100億參數(shù)的模型可用于主流設(shè)備,托管模型所需的內(nèi)存增加量較少(大約2GB),可用于文本補(bǔ)全、完成列表以及分類(lèi)等語(yǔ)言類(lèi)任務(wù)。
很顯然,不同大小的模型需要與之相匹配的內(nèi)存容量,至少對(duì)PC而言如此。除了容量之外,內(nèi)存的帶寬和能效同樣非常重要。隨著PC(尤其是移動(dòng)設(shè)備)的內(nèi)存從DDR轉(zhuǎn)向LPDDR,帶寬和能效均不斷提升。例如,與DDR5相比,LPDDR5X在主動(dòng)使用期間的功耗降低了44-54%,自刷新期間的功耗降低了86%。DDR5的帶寬為4.8Gb/s,而LPDDR5帶寬高達(dá)6.4Gb/s。如果AI能夠快速進(jìn)入PC,那么LPDDR5也將加速普及。如果將部分處理過(guò)程轉(zhuǎn)移到內(nèi)存中,還可進(jìn)一步提高能源效率,相關(guān)研究和開(kāi)發(fā)工作正在進(jìn)行中。這個(gè)過(guò)程可能需要很長(zhǎng)時(shí)間,也可能永遠(yuǎn)無(wú)法實(shí)現(xiàn)。行業(yè)需要融合各廠商的技術(shù),形成一組通用的原語(yǔ),用來(lái)將任務(wù)卸載到內(nèi)存中,并需要開(kāi)發(fā)相關(guān)的軟件堆棧。任何一組給定原語(yǔ),很難做到對(duì)所有應(yīng)用都是最佳選擇。因此,我們可以說(shuō),目前PC上的“存內(nèi)處理”技術(shù)還處在“問(wèn)題多于答案”階段。
一個(gè)更重要的問(wèn)題是:AI模型的最佳切入點(diǎn)在哪里?如果模型仍然相對(duì)較大,有沒(méi)有辦法減少對(duì)內(nèi)存的依賴(lài),將部分模型放在存儲(chǔ)設(shè)備里?如果這種辦法可行,則需要增加存儲(chǔ)帶寬,以滿足模型數(shù)據(jù)輪換加載的需求。
這種情況可能促進(jìn)Gen5 PCIe存儲(chǔ)設(shè)備在主流PC中的普及,或者加速Gen6 PCIe存儲(chǔ)設(shè)備的引入。近日Apple就該主題1發(fā)表了一篇論文:“閃存中的LLM:在有限內(nèi)存中進(jìn)行高效的大型語(yǔ)言模型推理”(作者:Alizadeh等),提出了一種在容量大于可用DRAM的設(shè)備上運(yùn)行大型語(yǔ)言模型 (LLM) 的方法。
論文作者建議將模型參數(shù)存儲(chǔ)在閃存中,然后根據(jù)需要將它們加載到DRAM中。他們還提出了多種優(yōu)化數(shù)據(jù)傳輸量以及提升讀取吞吐量的方法,以大幅提高推理速度。論文中,用于評(píng)估各種閃存加載策略的主要指標(biāo)是延遲,并分為三個(gè)不同的部分來(lái)討論:從閃存加載數(shù)據(jù)的I/O成本;使用新加載數(shù)據(jù)時(shí)的內(nèi)存管理開(kāi)銷(xiāo);以及推理操作的計(jì)算成本??傊撜撐奶岢隽藢⒛P蛥?shù)存儲(chǔ)在閃存中,然后根據(jù)需要載入DRAM的方法,為“有效運(yùn)行超過(guò)可用DRAM容量的LLM”這一難題提供了一種解決方案。
PC中的AI能力仍在不斷發(fā)展中。當(dāng)前將嵌入式NPU集成到CPU和獨(dú)立GPU中的方案僅僅只是開(kāi)始。Kinara、Memryx和Hailo推出的AI加速卡,為在PC中卸載AI工作負(fù)載提供了一種替代實(shí)現(xiàn)方式。模型方面,一種可能的發(fā)展方向是面向特定功能的模型。此類(lèi)模型體積較小,并且針對(duì)特定功能進(jìn)行了優(yōu)化。這些模型可根據(jù)需要從存儲(chǔ)設(shè)備載入內(nèi)存,但對(duì)存儲(chǔ)設(shè)備性能的要求類(lèi)似于大型模型。
獨(dú)立NPU的優(yōu)勢(shì)包括:
·?可處理復(fù)雜的AI模型和任務(wù),功耗和發(fā)熱量比CPU和GPU更低。
·?可為圖像識(shí)別、生成式AI、聊天機(jī)器人和其他應(yīng)用提供更快、更準(zhǔn)確的AI處理性能。
·?可加強(qiáng)現(xiàn)有CPU和GPU的功能,增強(qiáng)用戶的整體AI體驗(yàn)。
聯(lián)想將在2024年6月推出的ThinkCentre Neo Ultra臺(tái)式機(jī)中搭載NPU加速卡,并稱(chēng)這些卡能夠提供更強(qiáng)大的AI處理能力,且更加節(jié)能,優(yōu)于當(dāng)前的CPU和GPU解決方案。
將TOPS作為AI硬件性能評(píng)估的唯一標(biāo)準(zhǔn),可能并不全面。就AI計(jì)算而言,更重要的是單位時(shí)間內(nèi)的推理次數(shù)、準(zhǔn)確度和能源效率。對(duì)于生成式AI,關(guān)注的指標(biāo)可能是每秒輸出的Token數(shù)量,或者是在幾秒內(nèi)完成穩(wěn)定擴(kuò)散的能力。以行業(yè)普遍接受的方式測(cè)量這些指標(biāo),需要開(kāi)發(fā)相關(guān)的基準(zhǔn)測(cè)試程序。典型案例:在本屆CES上,我參觀了所有CPU供應(yīng)商、獨(dú)立NPU供應(yīng)商的展位和演示。在每個(gè)演示中,廠商都聲稱(chēng)他們的實(shí)現(xiàn)方式在某方面具有優(yōu)勢(shì)。
各方對(duì)于AI PC的橫空出世確實(shí)充滿熱情和期待。PC OEM廠商將此視為一大賣(mài)點(diǎn),希望AI PC能夠刺激PC更新?lián)Q代,自己能夠借此獲取更高利潤(rùn)。英特爾稱(chēng)到2025年AI PC的出貨量將達(dá)到1億臺(tái),幾乎占整個(gè)PC總潛在市場(chǎng)的30%。
無(wú)論最終的市場(chǎng)占有率如何,對(duì)消費(fèi)者而言,2024年推出的AI PC還是值得期待的。
1?2312.11514.pdf (arxiv.org)
2?PC World上有關(guān)Kinara和Halo的介紹文章
www.micron.com/AI
本文作者:Prasad Alluri,VP and GM for Client Storage at SBU