過去40年,芯片技術歷經巨變。20世紀80至90年代,超大規(guī)模集成電路(VLSI)和極大規(guī)模集成電路(ULSI)技術為芯片設計奠定了基礎,推動晶體管數(shù)量每兩年翻倍,實現(xiàn)了算力與能效的指數(shù)級增長。這一趨勢促進了芯片組的小型化,尤其是移動芯片的興起,使得半導體產業(yè)將目光聚焦于移動芯片組。隨后在2000年代中期,智能手機的誕生,進一步推動了如今市場上更強大、更復雜的移動芯片——系統(tǒng)級芯片(SoC)的發(fā)展。
然而,隨著對計算功能與組件需求的增加以及摩爾定律逼近極限,現(xiàn)代SoC設計重新聚焦性能提升與高能效計算的協(xié)同實現(xiàn)。AI時代,AI計算工作負載的規(guī)模與復雜性都持續(xù)攀升,帶來了能源消耗激增與成本不斷攀升的壓力。為此,行業(yè)正推動AI領域的高能效計算,覆蓋從大型數(shù)據(jù)中心到邊緣設備的所有技術觸點。在必要和相關的應用場景中,邊緣端處理AI工作負載可優(yōu)化網(wǎng)絡帶寬、強化數(shù)據(jù)隱私、提升用戶體驗,但也要求在空間和功耗受限的小型設備上實現(xiàn)更高效AI處理能力。
最近,Arm推出了一份報告——《芯片新思維:人工智能時代的新根基》,該報告聚焦四大關鍵趨勢:一是打造專用架構以應對特定工作負載,尤其是AI領域;二是計算密集度提升,能效至關重要;三是安全技術演進,應對AI驅動型威脅;四是軟件生態(tài)系統(tǒng)在釋放芯片潛能中扮演關鍵角色。
Arm 解決方案工程部執(zhí)行副總裁Kevork Kechichian表示,隨著摩爾定律驅動的傳統(tǒng)半導體縮放技術逼近物理與經濟極限,產業(yè)正加速向定制芯片、計算子系統(tǒng)(CSS)及芯粒(chiplet)等創(chuàng)新方案轉型,以突破性能與能效瓶頸。
AI計算的能效與可持續(xù)性
挑戰(zhàn)首先來自于能效與可持續(xù)性。AI工作負載從訓練龐大模型到執(zhí)行復雜推理任務,對能效、可擴展性和成本效益帶來重大挑戰(zhàn)。
AI計算需求極大,需大量電力支持,且未來將持續(xù)增長。從芯片設計的角度來看,能耗主要源于計算和數(shù)據(jù)傳輸,還需處理熱量冷卻。高盛預計,AI將推動數(shù)據(jù)中心電力需求增長達160%。為降低能源成本,芯片設計正集成優(yōu)化內存層次結構與協(xié)同通信機制,減少數(shù)據(jù)傳輸,并利用芯片堆疊、高帶寬內存及先進互連技術降低能耗。同時,AI框架和算法也針對每瓦性能和單位成本性能進行微調,實現(xiàn)算力與經濟可持續(xù)性平衡。
另一方面,針對特定市場需求打造的定制芯片正在成為行業(yè)趨勢。不僅谷歌、微軟,AWS等有自己的定制加速器,中小企業(yè)也在積極研發(fā)定制芯片。Arm Neoverse CSS經過驗證的核心計算功能以及靈活的內存與I/O接口配置,加快了產品的上市進程,在確保軟件一致性的同時,保留了系統(tǒng)級優(yōu)化的靈活性。
先進的封裝技術和工藝是近期芯片演進的另一個重要方向,同時也推動了芯粒的發(fā)展。這些技術允許多個半導體晶粒的堆疊和互連,在提升性能和能效的同時,開創(chuàng)了現(xiàn)代芯片設計的可能性,如晶粒間接口以及新的 2.5D 和 3D 封裝解決方案。芯粒市場的蓬勃發(fā)展為定制芯片的崛起鋪平道路,從而降低成本,并可利用現(xiàn)有的組件作為芯片的構建模塊,加速開發(fā)速度并助力企業(yè)實現(xiàn)差異化優(yōu)勢。
安全技術的挑戰(zhàn)與應對
在AI技術領域,AI驅動的網(wǎng)絡威脅日益嚴峻,能夠自我進化、識別系統(tǒng)漏洞并發(fā)動復雜攻擊。DarkTrace 2024年的一份報告指出,近74%的受訪者表示AI驅動的網(wǎng)絡威脅對其組織有顯著沖擊,60%的受訪者擔心組織未做好充分準備。
Kevork Kechichian表示,“盡管由AI驅動的網(wǎng)絡攻擊正成為新興的威脅前沿,行業(yè)正在構建多層級的軟硬件防護體系,從嵌入在芯片中的加密技術,到經AI強化的安全監(jiān)測系統(tǒng),現(xiàn)代SoC架構正不斷加固防線,以抵御傳統(tǒng)攻擊與新一代威脅?!蹦壳?,現(xiàn)代SoC 已經集成了復雜的安全機制,如硬件信任根(RoT)、可信執(zhí)行環(huán)境(TEE)、安全內存管理單元(MMU)、安全飛地等。
此外,定制芯片的興起對安全性提出了更高要求。目前,PSA Certified認證項目已成為安全芯片設計領域的黃金標準,而作為該認證項目補充的物聯(lián)網(wǎng)平臺安全評估標準(SESIP)則為定制芯片提供了安全評估的結構化方法。此外,監(jiān)管環(huán)境如針對車輛網(wǎng)絡安全的UNECE R155和針對汽車系統(tǒng)的ISO/SAE 21434標準,也為定制芯片設定了嚴格的行業(yè)特定要求。
芯片設計的變革
在AI技術的推動下,芯片設計領域正經歷著前所未有的劇變。這一變革源自AI工作負載激增和半導體縮放技術放緩的雙重作用。傳統(tǒng)芯片技術在28納米節(jié)點開始遇到瓶頸,在向7納米及更先進工藝推進的過程中,挑戰(zhàn)加劇。進入2納米及以下的全環(huán)繞柵極時代,傳統(tǒng)縮放技術的優(yōu)勢變得愈發(fā)難以維持,且成本高昂。
尤為明顯的是SRAM縮放進程的放緩:從5納米到2納米工藝節(jié)點,SRAM單元面積并未出現(xiàn)顯著縮減,盡管其在功耗和性能方面仍有所改進。此外,如今所謂的“縮放”主要是通過一些被稱為“縮放助推器”的結構性創(chuàng)新來實現(xiàn),諸如連續(xù)有源區(qū)/氧化擴散區(qū)、有源柵極上接觸、全環(huán)繞柵極晶體管及背面供電技術等,也成為提升晶體管密度的途徑。
隨著片上內存縮放速度放緩,先進AI工作負載等新型計算范式應運而生,其對內存帶寬的需求大幅增長。這一趨勢推動了內存架構的創(chuàng)新,包括高帶寬存儲器(HBM)集成新方案的出現(xiàn)。由此催生的近存計算架構能夠幫助減少數(shù)據(jù)在內存與處理器之間傳輸所需的時間和功耗。內存也因此成為計算架構中不可或缺的組成部分。
AI 的發(fā)展促使芯片設計設計的不斷變革。AI工作負載需要針對大規(guī)模并行處理和內存帶寬優(yōu)化的差異化架構,推動了包括新型專用加速器、內存子系統(tǒng)創(chuàng)新、能效聚焦及封裝與集成方式的演進等。
Kevork Kechichian表示,我們正在見證芯片設計與制造模式的根本性變革——隨著新工藝節(jié)點需要更緊密的合作,芯片設計與制造之間的傳統(tǒng)界限正在逐漸消失。新的時代需要具備創(chuàng)造力、系統(tǒng)級思維,以及對能效的不懈追求。
軟件生態(tài)的挑戰(zhàn)
在軟件生態(tài)系統(tǒng)需求及AI框架迅速發(fā)展的推動下,AI的芯片生態(tài)系統(tǒng)正處于持續(xù)演進的過程。
當前,將AI模型移植到定制硬件面臨成本高、耗時長的挑戰(zhàn)。而CPU憑借其廣泛的普及性和對大多數(shù)AI推理工作負載的良好適配性,廣受開發(fā)者青睞。CPU的一致性有效避免了定制硬件可能出現(xiàn)的碎片化和低效率問題。此外,AI框架間的互操作性至關重要,CPU的普及性也有助于確保廣泛的兼容性。
由于AI開發(fā)缺乏標準化實踐,大量AI模型仍屬于私有模型,這不僅限制了開發(fā)者優(yōu)化性能的能力,也減緩了發(fā)展進程。開放標準在打破這些壁壘的過程中發(fā)揮了關鍵作用,它使開發(fā)者能夠在不同平臺之間實現(xiàn)無縫遷移。
為培育一個蓬勃發(fā)展的開發(fā)者生態(tài)系統(tǒng),企業(yè)必須優(yōu)先通過強大的后端支持來賦能硬件,并積極擁抱不斷演進的AI框架。Arm 在報告中給出了四點建議:善用通用工具以簡化開發(fā)流程,減少開發(fā)碎片化;提供預構建的后端支持,通過為定制芯片提供“開箱即用”的兼容性,有助于加快其采用;積極參與開源框架的開發(fā),有助于確保兼容性并避免技術發(fā)展停滯不前;最后,隨著AI框架的快速演進,保持與最新技術同步對于維持競爭力至關重要。
結語
計算的未來,尤其是 AI 的未來,依賴于不斷拓展芯片技術的可能性邊界,依賴于軟硬件之間的協(xié)同。Kevork Kechichian強調,擁抱開放標準、實現(xiàn)互操作性、提供強大工具支持,將加快創(chuàng)新步伐,釋放芯片技術與AI框架潛能。
他認為,未來AI芯片解決方案的演進將建立在一個統(tǒng)一、以開發(fā)者為中心的生態(tài)系統(tǒng)上,注重一致性、易獲取性和前瞻適應性。而未來芯片設計的成功將越發(fā)依賴于五大關鍵點:橫跨IP提供商、晶圓代工廠與系統(tǒng)集成商的緊密合作,計算-內存-電源傳輸?shù)南到y(tǒng)級優(yōu)化,接口的標準化,面向特定負載的專用架構,以及能靈活應對新興威脅的強大安全框架。