• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

國產(chǎn)ASIC芯片雙線突圍:攻堅AI主控,競逐90%增速的千億配套市場

原創(chuàng)
3小時前
351
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

當全球數(shù)據(jù)中心資本支出向萬億美元邁進,一場由AI大模型驅(qū)動的算力重構(gòu)正加速顛覆傳統(tǒng)芯片架構(gòu)。

日前,一貫低調(diào)的芯片巨頭Marvell在投資者峰會上高調(diào)宣示:未來,Marvell的云收入將全面轉(zhuǎn)向AI收入。定制計算(XPU)和XPU Attach(配套組件)是增長最快的兩大領(lǐng)域,定制化芯片(ASIC)作為滿足新型工作負載需求的關(guān)鍵,是AI基礎(chǔ)設(shè)施的未來,且正在“每個云端”發(fā)生。

根據(jù)Marvell引用的數(shù)據(jù),2023年全球數(shù)據(jù)中心資本支出為2600億美元,預(yù)計到2028年將突破1萬億美元,年復(fù)合增長率達20%。專為AI服務(wù)的“加速計算”芯片市場,將在2028年達到3490億美元,包括主控芯片和周邊配套芯片在內(nèi)。

其中,定制主芯片的市場規(guī)模為1460億美元,年均增長47%;而定制配套芯片(如內(nèi)存管理器、網(wǎng)絡(luò)接口等)增長更為驚人,年均復(fù)合增長率高達90%,市場規(guī)模預(yù)計將達到4080億美元。

這些數(shù)據(jù)其實釋放出兩個明確信號:未來幾年內(nèi),全球數(shù)據(jù)中心市場,主芯片門檻高、戰(zhàn)略價值大,仍將保持高速增長;與此同時,配套芯片的爆發(fā)式增速更為驚人,規(guī)?;{海存在巨大的發(fā)展空間。

千億市場的戰(zhàn)略拐點——AI ASIC開啟黃金時代

Marvell在加速計算定制芯片市場屬于“黑馬”角色,2023年在該領(lǐng)域的市占率不足5%,但目標是到2028年實現(xiàn)20%的市場份額。在去年750億美元市場預(yù)期的基礎(chǔ)上,Marvell今年將定制芯片的2028年目標市場規(guī)模上調(diào)至940億美元,年復(fù)合增速達35%。其中,定制XPU 400億美元,復(fù)合年增長率47%;XPU配套組件150億美元,復(fù)合年增長率高達90%。

Marvell全力押注ASIC芯片是非常明確的產(chǎn)業(yè)訊號,包括Meta、博通等巨頭的AI ASIC布局都印證了這一趨勢。

博通日前發(fā)布季報稱,預(yù)計AI ASIC的部署規(guī)模將在明年繼續(xù)增大,相關(guān)營收有望遠超公司前期預(yù)期。目前在ASIC市場,博通以55%-60%的份額位居第一。博通在AI芯片領(lǐng)域的核心優(yōu)勢在于定制化ASIC芯片和高速數(shù)據(jù)交換芯片,其解決方案廣泛應(yīng)用于數(shù)據(jù)中心、云計算、高性能計算和5G基礎(chǔ)設(shè)施等領(lǐng)域。

值得關(guān)注的還有Meta。野村研究報告指出,Meta的 MTIA AI服務(wù)器可能成為 2026 年的一個里程碑。Meta將于今年第四季度推出AI ASIC (MTIA T-V1),可能在2026年中期推出MTIA T-V1.5 (V1.5) ASIC,系統(tǒng)在2026年下半年實現(xiàn)規(guī)模化部署。MTIA T-V1.5的芯片性能可能比V1強大得多,其中介層尺寸可能是V1的兩倍,超過5倍光罩尺寸,與英偉達的下一代 GPU Rubin 相似或稍大。

越來越多的云服務(wù)商在更積極地部署自己的AI ASIC解決方案,并且,2026年,在臺積電的AI邏輯半導(dǎo)體收入方面,預(yù)測AI ASIC的增長將比GPU更為強勁。野村認為,AI ASIC 的總出貨量可能在2026年的某個時候超過GPU。

不只是主芯片,數(shù)據(jù)中心配套芯片的競爭也高度激烈。近期,聯(lián)發(fā)科就憑借SerDes高速傳輸技術(shù)與價格優(yōu)勢,成功從博通手中搶下谷歌數(shù)據(jù)中心TPU的部分設(shè)計權(quán),這一突破也代表了聯(lián)發(fā)科在AI ASIC領(lǐng)域的強勢崛起。聯(lián)發(fā)科此次突圍的核心在于SerDes 高速傳輸技術(shù),該技術(shù)通過串行化并行信號,能夠顯著提升數(shù)據(jù)傳輸效率與抗干擾能力,尤其適用于TPU芯片的I/O模塊設(shè)計,且在同等性能下方案成本較博通低15%-20%,成為Google供應(yīng)鏈多元化的關(guān)鍵選擇。

值得注意的是,英偉達最近在Computex上推出的NVLink Fusion,也是便于與定制ASIC的系統(tǒng)級集成:通過NVLink芯片組,或是IP集成的方式,與其他的專用TPU、ASIC或加速器實現(xiàn)計算層面的混搭。該舉措本身也是英偉達對于定制化趨勢的積極擁抱,而非任由定制芯片項目蠶食其市場份額。另一方面,這也有助于AI算力基礎(chǔ)設(shè)施在異構(gòu)融合計算領(lǐng)域的障礙得到一定緩解,客觀上有望推動ASIC芯片的發(fā)展與繁榮。

AI主控芯片——國產(chǎn)算力的“心臟攻堅”

IDC數(shù)據(jù)顯示,2024年,中國加速芯片市場規(guī)模超過270萬張。從技術(shù)角度來看,GPU卡占據(jù)70%的市場份額;從品牌角度來看,中國本土AI芯片出貨量已超過82萬張,發(fā)展迅速。

AI主芯片是算力的核心,它決定了AI集群的效能上限。國產(chǎn)AI芯片成為美國對華科技制裁的重災(zāi)區(qū),這也倒逼國產(chǎn)AI處理器通過架構(gòu)創(chuàng)新、封裝集成等方式不斷打開性能天花板,也進一步證明了密度、效率與規(guī)模是國產(chǎn)算力的新杠桿,例如:

  • 封裝革命:華為 “四芯橋接+CoWoS-L”集成
  • 架構(gòu)革命:清微智能TX81可重構(gòu)存算一體(RPU)架構(gòu),算力利用率大幅提升
  • 集群革命:昆侖芯P800 XPU-P多核并行架構(gòu)點亮萬卡集群

華為超節(jié)點:從單卡劣勢到系統(tǒng)級反超

華為云推出的 CloudMatrix 384 超節(jié)點,標志著國產(chǎn)AI算力集群的重大突破。該系統(tǒng)基于 384 顆昇騰 910C 芯片構(gòu)建,通過雙芯片封裝設(shè)計(兩芯片共享八顆封裝內(nèi)存儲器及高帶寬互連),實現(xiàn)了單集群 300 PFlops BF16 密集算力,接近英偉達旗艦 GB200 NVL72 系統(tǒng)的兩倍,并在內(nèi)存帶寬上達到后者2.1倍。在硅基流動的實測中,該集群運行 DeepSeek-R1 模型時,單 NPU 解碼吞吐達 1943 tokens/s,計算效率 1.29 tokens/s/TFLOPS,全面超越英偉達H100和H800的同場景表現(xiàn)。

昇騰910C僅是新起點,華為進一步通過 “四芯片(quad-chiplet)封裝”布局下一代躍升。該技術(shù)采用硅中介層垂直互連,單封裝集成四顆計算芯片,架構(gòu)對標英偉達2026年Rubin Ultra 平臺。憑借封裝創(chuàng)新與本土供應(yīng)鏈合作,華為下一代芯片成本有望比英偉達H200低約40%,這正是以 “成熟制程集群化”策略實現(xiàn)性能代差追趕,驗證了“以封裝換制程、以規(guī)模提效能”的技術(shù)破局路徑。

昆侖芯P800:萬卡集群+MLA引擎適于MoE訓(xùn)練

2020 年,昆侖芯 1 代實現(xiàn)量產(chǎn),主要用于百度搜索引擎、小度等業(yè)務(wù);2021 年量產(chǎn)的昆侖芯2代較1代性能提升2-3倍;今年,新一代芯片昆侖芯3代組件已點亮萬卡集群。

昆侖芯基于XPU雙計算單元架構(gòu),混合計算引擎由專用神經(jīng)網(wǎng)絡(luò)處理器XPU-SDNN(針對矩陣乘/卷積等張量運算優(yōu)化)與通用多核XPU集群(處理復(fù)雜控制流)構(gòu)成,二者共享指令集降低開發(fā)門檻;任務(wù)由統(tǒng)一調(diào)度器動態(tài)分配至最優(yōu)引擎,從而實現(xiàn)了性能、效率和靈活性的優(yōu)化。

第三代芯片P800是昆侖芯當前最具代表性的算力產(chǎn)品,其XPU-P架構(gòu)采用了多核并行計算、高速互聯(lián)、靈活可編程等關(guān)鍵技術(shù),可以較好地支撐DeepSeek系列MoE模型大規(guī)模訓(xùn)練任務(wù),全面支持MLA(多頭潛注意力)、多專家并行等特性,僅需32臺即可支持模型全參數(shù)訓(xùn)練,高效完成模型持續(xù)訓(xùn)練和微調(diào),目前已點亮萬卡集群。

寒武紀思元:Chiplet+ LPDDR5革新,云端戰(zhàn)力躍升

思元370芯片是寒武紀首款采用chiplet技術(shù)的AI ASIC芯片,基于其智能芯片架構(gòu)MLUarch03,最大算力達256TOPS(INT8)。思元370也是國內(nèi)第一款公開發(fā)布支持LPDDR5內(nèi)存的云端AI芯片,內(nèi)存帶寬是上一代產(chǎn)品的3倍,訪存能效達GDDR6的1.5倍。搭載MLU-Link多芯互聯(lián)技術(shù),在分布式訓(xùn)練或推理任務(wù)中為多顆思元370芯片提供高效協(xié)同能力。

最新一代云端智能訓(xùn)練芯片思元590則采用MLUarch05架構(gòu),能夠提供更大的內(nèi)存容量和帶寬,I/O和片間互聯(lián)接口也較上代實現(xiàn)大幅升級,訓(xùn)練性能大幅提升。

燧原云燧集群:邃思+高速互聯(lián),重構(gòu)存算效率

燧原的云燧智算集群可以在節(jié)點內(nèi)提供1.2TB/s 聚合通信帶寬(基于燧原科技GCU-LARE互聯(lián)技術(shù)),節(jié)點間提供3個200Gb/s(RDMA)傳輸,支持集群高速通信,存算網(wǎng)絡(luò)分離。該集群搭載的正是AI芯片邃思,也是燧原ASIC路線的代表之作。

邃思芯片架構(gòu)GCU-CARA(通用計算單元和全域計算架構(gòu)),具有完全可編程、全模式計算、全精度計算和高并行度的特點,提供多數(shù)據(jù)精度AI算力支持,針對張量、矢量、標量等多計算范式提供領(lǐng)先性能,支持指令驅(qū)動、可編程的融合式數(shù)據(jù)流架構(gòu),提供軟件透明、基于任務(wù)的智能調(diào)度。

清微RPU架構(gòu):暴力壓縮千億模型至單機運行

清微智能TX81基于可重構(gòu)存算一體(RPU)設(shè)計,通過可重構(gòu)計算架構(gòu)映射和數(shù)據(jù)流控制技術(shù),在處理AI任務(wù)時,以更高效率實現(xiàn)計算資源的動態(tài)調(diào)度分配,摒棄傳統(tǒng)指令處理流程和共享存儲數(shù)據(jù)交換機制,使硬件資源更聚焦于核心計算任務(wù)。

目前,清微智能算力服務(wù)器支持無交換機自組網(wǎng)調(diào)度,顯著提升計算資源利用率與能效比,單機支持從1.5B、7B到六千億參數(shù)的DeepSeek全量模型,是支持DeepSeek大模型的高性價比方案。

配套芯片——90%增速的黃金賽道

年均復(fù)合增長率90%的配套芯片市場,包括內(nèi)存接口、網(wǎng)絡(luò)互連、電源管理等芯片,是本土企業(yè)的“黃金賽道”。雖然目前只有主芯片才是嚴格意義的AI芯片,但配套芯片相當于超大規(guī)模AI集群的毛細血管,與主芯片協(xié)同保障AI系統(tǒng)的整體效能和系統(tǒng)安全。

高速SerDes百億藍海,國產(chǎn)廠商112G角逐正酣

在數(shù)據(jù)中心領(lǐng)域,高速SerDes作為數(shù)據(jù)傳輸?shù)闹匾ぞ?,預(yù)計未來市場規(guī)模將達到百億美元量級。高速SerDes IP主要應(yīng)用場景包括:芯片與芯片的互聯(lián)(如在PCIe/CXLPHY中)、以太網(wǎng)互連(如在Ethernet switch PHY)以及芯片與光模塊的互聯(lián)(如在oDSP PHY中)。在數(shù)據(jù)中心場景,SerDes對速率要求較高,國際廠商普遍在112G以上進行研究,甚至已突破224G。

國內(nèi)獨立Serdes IP公司競爭格局還未穩(wěn)定,初創(chuàng)企業(yè)不斷涌現(xiàn),多數(shù)IP公司也在拓寬DDR、USB、MIPI等接口IP產(chǎn)品線。布局高速Serdes相關(guān)IP的獨立廠商情況有晟聯(lián)科、芯潮流、集益威、芯原、合見工軟、芯耀輝等。

晟聯(lián)科作為高速接口IP供應(yīng)商,擁有高速SerDes及UCIe IP、PCIe6.0高速接口IP解決方案。其中,112G SerDes IP解決方案,基于ADC/DSP的接收端架構(gòu),支持PAM4和NRZ傳輸,支持長距離傳輸:42dB@112G PAM4。

芯潮流為Alphawave在中國的合資公司,支持 Alphawave 高速Serdes IP在中國的銷售和定制業(yè)務(wù)。芯潮流采用基于DSP算法架構(gòu)的SerDes技術(shù),基于DSP算法的架構(gòu),能有效滿足高帶寬數(shù)據(jù)實時傳輸需求,這也是目前市場上的主流方向。

合見工軟目前已推出56G/112G Serdes Controller IP,最新發(fā)布了 UniVista 32G Multi-Protocol SerDes IP,由硬化模塊(PMA/SerDes)和RTL模塊(Raw PCS)組成,支持32 Gbps的數(shù)據(jù)傳輸速率(例如PCIe Gen5速率下32.0GT/s),支持 PCIe Gen1-5、USB4、以太網(wǎng)(25GKR、10GKR)、SRIO、JESD204C等多種主流和專用協(xié)議。

集益微目前56G Serdes IP已在國內(nèi)量產(chǎn),112G Serdes IP也已流片。主要業(yè)務(wù)包括高性能和低功耗PLL、ADC/DAC以及SerDes IP和IC的研發(fā)和產(chǎn)業(yè)化服務(wù)。

芯耀輝擁有較為齊全的接口IP產(chǎn)品線,可以提供不同F(xiàn)oundry上不同工藝節(jié)點1-10G/20G/25G/32G/56G/112G等多協(xié)議SerDes PHY的IP 解決方案,多協(xié)議SerDes PHY可以支持包括PCIe、USB、DP、MIPI、MPHY、以太網(wǎng)等多種協(xié)議。

芯動科技已有32G/56G/64G SerDes解決方案,包含PCIe6/5(向下兼容PCIe4/3/2)、USB3.2/3.0、SATA、XAUI、SATA、RapidIO、CXL2.0,最新112G SerDes也在開發(fā)中,可靈活定制Retimer 和Switch交換芯片。

從電源到存儲,國產(chǎn)芯片的“安全保衛(wèi)戰(zhàn)”

電源管理、計算與存儲加速芯片也是數(shù)據(jù)中心基礎(chǔ)設(shè)施重要的配套芯片,其中,電源管理還可進一步細分為核心處理器供電、內(nèi)存供電和電路保護等。

1、 電源管理與保護

希荻微面向CPU、GPU、DSP等核心處理器供電芯片,擁有創(chuàng)新架構(gòu)和良好負載瞬態(tài)響應(yīng),輸出電流50A,效率達90%以上,多路并聯(lián)可輸出更高規(guī)格的電流,與國際品牌的成熟方案相比,能滿足AI服務(wù)器對電源模塊小型化、高效化的需求。此外,希荻微推出的20A/50A大電流E-fuses負載開關(guān)芯片等系列產(chǎn)品在電流極限精度和響應(yīng)時間等關(guān)鍵指標上也有較好表現(xiàn)。

慧易芯專注于CPU/GPU等核心處理器電源管理芯片,其DrMOS產(chǎn)品已進入多家頭部企業(yè)的供應(yīng)鏈體系,并實現(xiàn)批量出貨。目前主板供電系統(tǒng)解決方案為多相電源,即多相控制器芯片+DrMOS芯片組合。其中,DrMOS芯片(Driver MOS)是完成電路降壓控制具體動作的電源管理芯片(屬于DC-DC),由驅(qū)動IC與MOSFET(主開關(guān)管+續(xù)流管)集成而來。

杰華特應(yīng)對大電流場景下,PMIC多相控制器向更高相數(shù)的升級趨勢,推出了12相控制器JWH6377,它具有可編程環(huán)路配置;6*6 QFN封裝;可靈活調(diào)節(jié)雙路的相序配置等。此外,集成了PMBus調(diào)壓功能,能夠上報關(guān)鍵的電壓、電流、功率、溫度和故障信息;集成各相電流均衡和熱平衡功能,優(yōu)化了電流分布和熱應(yīng)力;并且集成多種保護功能,提供了不同故障的響應(yīng)類型。

思遠半導(dǎo)體從DDR5 PMIC切入了存儲電源領(lǐng)域。SY5888、SY5887兩款PMIC,專為DDR5內(nèi)存條設(shè)計,集成3路高效降壓轉(zhuǎn)換器和精準穩(wěn)壓模塊,其中SY5888支持內(nèi)存超頻至8000Mbps以上。相比傳統(tǒng)DDR4,DDR5的供電需應(yīng)對高頻波動和嚴苛電壓精度要求,思遠通過動態(tài)電壓調(diào)節(jié)技術(shù),讓芯片在高負載下仍能“冷靜輸出”。此外,企業(yè)級DDR5內(nèi)存條對溫度敏感,思遠的TS5110傳感器精度達±0.25℃,其應(yīng)力補償算法提升了量產(chǎn)一致性。

2、存儲控制

憶芯科技PCIe4.0?SSD主控芯片STAR2000已流片。該芯片集成了神經(jīng)網(wǎng)絡(luò)處理單元,結(jié)合8TOPS的AI算力為數(shù)據(jù)中心業(yè)務(wù)定制近存計算或存內(nèi)計算功能,還可幫助SSD提高可靠性和服務(wù)質(zhì)量、優(yōu)化功耗、實現(xiàn)智能自檢及早期故障排查等。采用12nm制程并支持 NVMe2.0 協(xié)議,可以提供良好的穩(wěn)態(tài)隨機及順序讀寫性能。

瀾起科技在內(nèi)存接口芯片方面,其DDR5 RCD(寄存時鐘驅(qū)動器)與DB(數(shù)據(jù)緩沖器)套片通過全面緩沖地址/命令及數(shù)據(jù)信號,成為高性能服務(wù)器內(nèi)存模組(RDIMM/LRDIMM)的核心器件,能夠提升CPU存取內(nèi)存的速度與穩(wěn)定性。此外還有DDR5內(nèi)存模組配套芯片,包括SPD Hub、PMIC及溫度傳感器,實現(xiàn)對內(nèi)存電源與溫控的精細管理;時鐘驅(qū)動器(CKD)芯片突破性應(yīng)用于客戶端高端內(nèi)存模組(如CUDIMM/CAMM),滿足下一代算力平臺對更高內(nèi)存帶寬的需求。

寫在最后

隨著AI從訓(xùn)練向推理場景延伸,ASIC 芯片也因能效比優(yōu)勢成為企業(yè)首選。行業(yè)數(shù)據(jù)顯示,2025年,全球ASIC市場規(guī)模預(yù)計達220億美元,其中AI相關(guān)占比15%,到 2030年有望突破400億美元。AI算力基礎(chǔ)設(shè)施走向異構(gòu)融合的道路上,國產(chǎn)ASIC芯片廠商迎來了前所未有的機遇。

通過多年的發(fā)展,國產(chǎn)芯片廠商在底層技術(shù)已經(jīng)形成了一定的積累,如前文所述,比如在高速SerDes互連、高能效供電(如大電流DC/DC、多相控制器、DrMOS)、先進存儲控制(如PCIe 4.0/5.0 SSD主控、DDR5接口與管理)以及信號鏈與接口等關(guān)鍵配套芯片領(lǐng)域已取得顯著突破,并形成體系化能力。這些正是構(gòu)建高性能、高集成度、低功耗ASIC的核心基石,也為國產(chǎn)廠商在ASIC道路的進一步升級提供了堅實保障。

 

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄