• 正文
    • 01、從GPU到ASIC,算力經(jīng)濟(jì)學(xué)走向分水嶺
    • 02、ASIC的“手術(shù)刀”:非核心模塊,通通砍掉
    • 03“新地圖”價(jià)值遠(yuǎn)不止1000億美元
    • 04結(jié)語
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

DeepSeek掀起算力革命,英偉達(dá)搖挑戰(zhàn)加劇,ASIC芯片悄然崛起

03/11 10:40
2010
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者:由我、蘇揚(yáng),編輯:鄭可君

編者按:芯事重重“算力經(jīng)濟(jì)學(xué)”系列研究,聚焦算力、成本相關(guān)話題的技術(shù)分析、產(chǎn)業(yè)穿透,本期聚焦ASIC芯片自研與產(chǎn)業(yè)鏈研究。本文系基于公開資料撰寫,僅作為信息交流之用,不構(gòu)成任何投資建議。

DeepSeek帶動推理需求爆發(fā),英偉達(dá)的“算力霸權(quán)”被撕開一道口子,一個新世界的大門逐漸打開——由ASIC芯片主導(dǎo)的算力革命,正從靜默走向喧囂。日前,芯流智庫援引知情人士的消息,稱DeepSeek正在籌備AI芯片自研。相比這個后起之秀,國內(nèi)大廠如阿里、百度、字節(jié)們更早就跨過了“自研”的大門。大洋彼岸,OpenAI自研芯片的新進(jìn)展也在年初釋出,外媒披露博通為其定制的首款芯片幾個月內(nèi)將在臺積電流片。此前更是一度傳出Sam Altman計(jì)劃籌集70000億美元打造“芯片帝國”,設(shè)計(jì)與制造通吃。此外,谷歌、亞馬遜、微軟、Meta也都先后加入了這場“自研熱潮”。一個明顯的信號是——無論DeepSeek、OpenAI,還是中國公司和硅谷大廠,誰都不希望在算力時(shí)代掉隊(duì)。而ASIC芯片,可能會成為他們跨越新世界大門的入場券。這會不會“殺死”英偉達(dá)?或者,會不會“再造”第二個英偉達(dá)?現(xiàn)在還沒有答案。不過可以明確的是,這場轟轟烈烈的“自研浪潮”,其上游的產(chǎn)業(yè)鏈企業(yè)已經(jīng)“春江水暖鴨先知”,例如給各家大廠提供設(shè)計(jì)定制服務(wù)的博通,業(yè)績已經(jīng)“起飛”:2024年AI業(yè)務(wù)收入同比240%,達(dá)到37億美元;2025Q1AI業(yè)務(wù)營收41億美元,同比增77%;其中80%來自ASIC芯片設(shè)計(jì)。在博通的眼里,ASIC芯片這塊蛋糕,價(jià)值超過900億美元。

01、從GPU到ASIC,算力經(jīng)濟(jì)學(xué)走向分水嶺

低成本是AI推理爆發(fā)的必要條件,與之相對的是——通用GPU芯片成了AI爆發(fā)的黃金枷鎖。英偉達(dá)的H100和A100是大模型訓(xùn)練的絕對王者,甚至連B200、H200也讓科技巨頭們趨之若鶩。金融時(shí)報(bào)此前援引Omdia的數(shù)據(jù),2024年,英偉達(dá)Hopper架構(gòu)芯片的主要客戶包括微軟、Meta、Tesla/xAI等,其中微軟的訂單量達(dá)到50萬張。但是,作為通用GPU的絕對統(tǒng)治者,英偉達(dá)產(chǎn)品方案其“硬幣的另一面”已逐漸顯現(xiàn):高昂的成本與冗余的能耗。

成本方面,單個H100售價(jià)超3萬美元,訓(xùn)練千億參數(shù)模型需上萬張GPU,再加上網(wǎng)絡(luò)硬件、存儲和安全等后續(xù)的投入,總計(jì)超5億美元。根據(jù)匯豐的數(shù)據(jù),最新一代的GB200 NVL72方案,單機(jī)柜超過300萬美元,NVL36也在180萬美元左右。

可以說,基于通用GPU的模型訓(xùn)練太貴了,只不過是算力不受限制的硅谷,仍然偏向于“力大磚飛”的敘事,資本支出并未就此減速。就在日前,馬斯克旗下xAI,不久之前公布的Grok-3,訓(xùn)練的服務(wù)器規(guī)模,已經(jīng)達(dá)到了20萬張GPU的規(guī)模。騰訊科技聯(lián)合硅兔賽跑推出的《兩萬字詳解最全2025 AI關(guān)鍵洞察》一文提到,超大規(guī)模數(shù)據(jù)中心運(yùn)營商預(yù)計(jì)2024年資本支出(CapEx)超過 2000億美元,到2025年這一數(shù)字預(yù)計(jì)將接近2500億美元,且主要資源都將傾斜給人工智能。

能耗方面,根據(jù)SemiAnalysis的測算,10萬卡H100集群,總功耗為150MW,每年耗費(fèi)1.59TWh的電量,按0.078美元/千瓦時(shí)計(jì)算,每年電費(fèi)高達(dá)1.239億美元。對照OpenAI公布的數(shù)據(jù),推理階段GPU的算力利用率僅30%-50%,“邊算邊等”現(xiàn)象顯著,如此低效的性能利用率,在推理時(shí)代,確實(shí)是大材小用,浪費(fèi)過于嚴(yán)重。

谷歌此前公布的TPU V4與A100針對不同架構(gòu)模型的訓(xùn)練速度性能領(lǐng)先、價(jià)格昂貴,效率不佳,外加生態(tài)壁壘,過去一年業(yè)內(nèi)都在喊“天下苦英偉達(dá)久矣”——云廠商逐漸喪失硬件自主權(quán),疊加供應(yīng)鏈風(fēng)險(xiǎn),再加上AMD暫時(shí)還“扶不起來”,諸多因素倒逼巨頭開始自研ASIC專用芯片。

自此,AI芯片戰(zhàn)場,從技術(shù)競賽轉(zhuǎn)向經(jīng)濟(jì)性博弈。正如西南證券的研究結(jié)論,“當(dāng)模型架構(gòu)進(jìn)入收斂期,算力投入的每一美元都必須產(chǎn)出可量化的經(jīng)濟(jì)收益?!睆谋泵涝茝S商最近反饋的進(jìn)展看,ASIC已體現(xiàn)出一定的替代優(yōu)勢:

●?谷歌:博通為谷歌定制的TPU v5芯片在Llama-3推理場景中,單位算力成本較H100降低70%。

●?亞馬遜:3nm制程的AWS Trainium 3,同等算力下能耗僅為通用GPU的1/3,年節(jié)省電費(fèi)超千萬美元;據(jù)了解,亞馬遜Trainium芯片2024年出貨量已超50萬片。

●?微軟:根據(jù)IDC數(shù)據(jù),微軟Azure自研ASIC后,硬件采購成本占比從75%降至58%,擺脫長期被動的議價(jià)困境。

作為北美ASIC鏈的最大受益者,博通這一趨勢在數(shù)據(jù)中愈發(fā)顯著。博通2024年AI業(yè)務(wù)收入37億美元,同比增240%,其中80%來自ASIC設(shè)計(jì)服務(wù)。2025Q1,其AI業(yè)務(wù)營收41億美元,同比增77%,同時(shí)預(yù)計(jì)第二季度AI營收44億美元,同比增44%。

早在年報(bào)期間,博通指引2027年ASIC收入將大爆發(fā),給市場畫了3年之后ASIC芯片將有望達(dá)到900億美元的市場規(guī)模這個大餅。Q1電話會期間,公司再次重申了這一點(diǎn)。憑借這個大的產(chǎn)業(yè)趨勢,博通也成為全球繼英偉達(dá)、臺積電之后,第三家市值破1萬億美元的半導(dǎo)體公司,同時(shí)也帶動了海外對于Marvell、AIchip等公司的關(guān)注。

不過,有一點(diǎn)需要強(qiáng)調(diào)——“ASIC雖好,但也不會殺死GPU”。微軟、谷歌、Meta都在下場自研,但同時(shí)又都在搶英偉達(dá)B200的首發(fā),這其實(shí)說明了雙方之間不是直接的競爭關(guān)系。更客觀的結(jié)論應(yīng)該是,GPU仍將主導(dǎo)高性能的訓(xùn)練市場,推理場景中由于GPU的通用性仍將是最主要的芯片,但在未來接近4000億美元的AI芯片藍(lán)海市場中,ASIC的滲透路徑已清晰可見。

IDC預(yù)測,2024-2026年推理場景中,ASIC占比從15%提升至40%,即最高1600億美元。這場變革的終局或許是:ASIC接管80%的推理市場,GPU退守訓(xùn)練和圖形領(lǐng)域。真正的贏家將是那些既懂硅片、又懂場景的“雙棲玩家”,英偉達(dá)顯然是其中一員,看好ASIC斷然不是唱空英偉達(dá)。而新世界的指南,是去尋找除英偉達(dá)之外的雙棲玩家,如何掘金ASIC新紀(jì)元。

02、ASIC的“手術(shù)刀”:非核心模塊,通通砍掉

錦緞在《DeepSeek的隱喻:GPU失其鹿,ASIC、SoC們共逐之》一文中詳解過SoC,而CPU、GPU用戶早已耳熟能詳,FPGA應(yīng)用市場小眾,最為陌生的當(dāng)屬ASIC。

特性 CPU GPU FPGA ASIC
定制化程度 通用 半通用 半定制化 全定制化
靈活性
成本 較低 較高
功耗 較高 較高
主要優(yōu)點(diǎn) 通用性最強(qiáng) 計(jì)算能力強(qiáng),生態(tài)成熟 靈活強(qiáng)較高 能效最高
主要缺點(diǎn) 并行算力弱 功耗較大,編程難度較大 峰值計(jì)算能力弱,編程難度較難 研發(fā)時(shí)間長,技術(shù)風(fēng)險(xiǎn)高
應(yīng)用場景 較少用于AI 云端訓(xùn)練和推理 云端推理,終端推理 云端訓(xùn)練和推理,終端推理

圖:算力芯片對比 資料來源:中泰證券

那么,都說ASIC利好AI推理,究竟它是一個什么樣的芯片?

從架構(gòu)上來說, GPU這樣的通用芯片,其局限在于“以一敵百”的設(shè)計(jì)——需要兼顧圖形渲染、科學(xué)計(jì)算、不同的模型架構(gòu)等多元需求,導(dǎo)致大量晶體管資源浪費(fèi)在非核心功能模塊。

英偉達(dá)GPU最大的特點(diǎn),就是有眾多“小核”,這些“小核”可以類比成獵鷹火箭多臺發(fā)動機(jī),開發(fā)者可以憑借CUDA多年積累的算子庫,平穩(wěn)、高效且靈活地調(diào)用這些小核用于并行計(jì)算。但如果下游模型相對確定,計(jì)算任務(wù)就是相對確定的,不需要那么多小核來保持靈活性,ASIC最底層的原理正是如此,所以也被稱為全定制化高算力芯片。通過 “手術(shù)刀式”精準(zhǔn)裁剪,僅保留與目標(biāo)場景強(qiáng)相關(guān)的硬件單元,釋放出驚人的效率,這在谷歌、亞馬遜都已經(jīng)在產(chǎn)品上得到了驗(yàn)證。

谷歌TPU v5e AI加速器實(shí)拍對于GPU來說,調(diào)用它們最好的工具是英偉達(dá)的CUDA,而對于ASIC芯片,調(diào)用它們的是云廠商自研的算法,這對于軟件起家的大廠來說,并不是什么難事:

● 谷歌TPU v4中,95%的晶體管資源用于矩陣乘法單元和向量處理單元,專為神經(jīng)網(wǎng)絡(luò)計(jì)算優(yōu)化,而GPU中類似單元的占比不足60%。

● 不同于傳統(tǒng)馮·諾依曼架構(gòu)的“計(jì)算-存儲”分離模式,ASIC可圍繞算法特征定制數(shù)據(jù)流。例如在博通為Meta定制的推薦系統(tǒng)芯片中,計(jì)算單元直接嵌入存儲控制器周圍,數(shù)據(jù)移動距離縮短70%,延遲降低至GPU的1/8。

● 針對AI模型中50%-90%的權(quán)重稀疏特性,亞馬遜Trainium2芯片嵌入稀疏計(jì)算引擎,可跳過零值計(jì)算環(huán)節(jié),理論性能提升300%。當(dāng)算法趨于固定,對于確定性的垂直場景,ASIC就是具有天然的優(yōu)勢,ASIC設(shè)計(jì)的終極目標(biāo)是讓芯片本身成為算法的“物理化身”。在過去的歷史和正在發(fā)生的現(xiàn)實(shí)中,我們都能夠找到ASIC成功的力證,比如礦機(jī)芯片。

早期,行業(yè)都是用英偉達(dá)的GPU挖礦,后期隨著挖礦難度提升,電力消耗超過挖礦收益(非常類似現(xiàn)在的推理需求),挖礦專用ASIC芯片爆發(fā)。雖然通用性遠(yuǎn)不如GPU,但礦機(jī)ASIC將并行度極致化。例如,比特大陸的比特幣礦機(jī)ASIC,同時(shí)部署數(shù)萬個SHA-256哈希計(jì)算單元,實(shí)現(xiàn)單一算法下的超線性加速,算力密度達(dá)到GPU的1000倍以上。不僅專用能力大幅提升,而且能耗實(shí)現(xiàn)了系統(tǒng)級節(jié)省。此外,使用ASIC可精簡外圍電路(如不再需要PCIe接口的復(fù)雜協(xié)議棧),主板面積減少40%,整機(jī)成本下降25%。

低成本、高效率,支持硬件與場景深度咬合,這些ASIC技術(shù)內(nèi)核,天然適配AI產(chǎn)業(yè)從“暴力堆算力”到“精細(xì)化效率革命”的轉(zhuǎn)型需求。隨著推理時(shí)代的到來,ASIC成本優(yōu)勢將重演礦機(jī)的歷史,實(shí)現(xiàn)規(guī)模效應(yīng)下的“死亡交叉”——盡管初期研發(fā)成本高昂(單芯片設(shè)計(jì)費(fèi)用約5000萬美元),但其邊際成本下降曲線遠(yuǎn)陡于通用GPU。以谷歌TPU v4為例,當(dāng)出貨量從10萬片增至100萬片時(shí),單顆成本從3800美元驟降至1200美元,降幅接近70%,而GPU的成本降幅通常不超過30%。根據(jù)產(chǎn)業(yè)鏈最新信息,谷歌TPU v6預(yù)計(jì)2025年出貨160萬片,單片算力較前代提升3倍,ASIC的性價(jià)比,還在快速提升

這又引申出一個新的話題,是否所有人都可以涌入自研ASIC大潮中去?這取決于自研成本與需求量。按照7nm工藝的ASIC推理加速卡來計(jì)算,涉及IP授權(quán)費(fèi)用、人力成本、設(shè)計(jì)工具、掩模板在內(nèi)的一次流片費(fèi)用等,量級可能就在億元的級別,還不包括后期的量產(chǎn)成本。在這方面,大廠更具有資金優(yōu)勢。目前,像谷歌、亞馬遜這樣的云廠商,因?yàn)橛谐墒斓目蛻趔w系,能夠形成研發(fā)、銷售閉環(huán),自研上擁有先天的優(yōu)勢。Meta這種企業(yè),自研的邏輯則在于內(nèi)部本身就有天量級的算力需求。今年初,扎克伯格就曾透露,計(jì)劃在2025年上線約1GW的計(jì)算能力,并在年底前擁有超過130萬張GPU。

03“新地圖”價(jià)值遠(yuǎn)不止1000億美元

僅僅是挖礦需求就帶來了近100億美元的市場,所以當(dāng)博通2024年底喊出AI ASIC市場空間700-900億美元的時(shí)候,我們并不意外,甚至認(rèn)為可能這個數(shù)字都保守了?,F(xiàn)在,ASIC芯片的產(chǎn)業(yè)趨勢不應(yīng)當(dāng)再被質(zhì)疑,重點(diǎn)應(yīng)該是如何掌握“新地圖”的博弈法則。

近千億美元的AI ASIC市場中,已經(jīng)形成清晰的三大梯隊(duì)——“制定規(guī)則的ASIC芯片設(shè)計(jì)者和制造者” 、“產(chǎn)業(yè)鏈配套”、“垂直場景下的Fabless”。第一梯隊(duì),是制定規(guī)則的ASIC芯片設(shè)計(jì)者和制造者,他們可以制造單價(jià)超過1萬美元的ASIC芯片,并與下游的云廠商合作商用,代表玩家有博通、Marvell、AIchip,以及不管是什么先進(jìn)芯片都會受益的代工王者——臺積電。第二梯隊(duì),產(chǎn)業(yè)鏈配套,已經(jīng)被市場關(guān)注到的配套邏輯包括先進(jìn)封裝與更下游的產(chǎn)業(yè)鏈。

● 先進(jìn)封裝:臺積電CoWoS產(chǎn)能的35%已轉(zhuǎn)向ASIC客戶,國產(chǎn)對應(yīng)的中芯國際、長電科技、通富微電等。

● 云廠商英偉達(dá)硬件方案解耦帶來的新硬件機(jī)會:如AEC銅纜,亞馬遜自研單顆ASIC需配3根AEC,若2027年ASIC出貨700萬顆,對應(yīng)市場超50億美元,其他還包括服務(wù)器、PCB均是受益于相似邏輯。第三梯隊(duì),是正在醞釀的垂直場景的Fabless。

ASIC的本質(zhì)是需求驅(qū)動型市場,誰能最先捕捉到場景痛點(diǎn),誰就掌握定價(jià)權(quán)。ASIC的基因就是定制化,與垂直場景天然適配。以智駕芯片為例,作為典型的ASIC芯片,隨著比亞迪等All in智駕,這類產(chǎn)品開始進(jìn)入爆發(fā)期。

映射全球ASIC產(chǎn)業(yè)鏈三大梯隊(duì)對應(yīng)的機(jī)會,可以看作是國產(chǎn)的“三把秘鑰”。受制于禁令的限制,國產(chǎn)GPU與英偉達(dá)的差距仍然巨大,生態(tài)建設(shè)也是一個漫長的路程,但是對于ASIC,我們甚至與海外在同一起跑線上,再結(jié)合垂直場景,中國不少Fabless能夠做出更有能效比的產(chǎn)品,前面提及的礦機(jī)ASIC、智駕ASIC以及阿里平頭哥的含光、百度的昆侖芯這些AI ASIC。

與之配套的芯片制造,主要依賴中芯國際,中興旗下的中興微等則是新入場的“玩家”,不排除未來他們將與國內(nèi)廠商合作,上演一場“誰將是中國博通”的戲碼。

銅纜產(chǎn)業(yè)鏈配套部分難度相對較低,對應(yīng)的服務(wù)器、光模塊、交換機(jī)、PCB、銅纜,由于技術(shù)難度低,國內(nèi)企業(yè)本來競爭力就比較強(qiáng)。與此同時(shí),這些產(chǎn)業(yè)鏈企業(yè)與國產(chǎn)算力屬于“共生”關(guān)系,ASIC芯片產(chǎn)業(yè)鏈也不會缺席。應(yīng)用場景上,除了反復(fù)提及的智駕芯片和AI推理加速卡,其他國產(chǎn)設(shè)計(jì)公司的機(jī)會,取決于什么場景能爆發(fā),對應(yīng)哪些公司又能把握住機(jī)遇。

04結(jié)語

當(dāng)AI從大力出奇跡的訓(xùn)練軍備競賽,躍進(jìn)推理追求能效的深水區(qū),算力戰(zhàn)爭的下半場注定屬于那些能將技術(shù)狂想,轉(zhuǎn)化為經(jīng)濟(jì)賬本的公司。ASIC芯片的逆襲,不僅是一場技術(shù)革命,更是一本關(guān)于效率、成本和話語權(quán)的商業(yè)啟示錄。在這場新的牌局中,中國選手的籌碼正在悄然增加——機(jī)會永遠(yuǎn)留給準(zhǔn)備好的人。

相關(guān)推薦