從GPU芯片到智算集群，英偉達不給中間商賺差價

03/20 10:20 作者：歪睿老哥

801

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

GTC25上，老黃拿出了最新也是最強的BLackWell Ultra GPU（B300），不過這個不是重點，畢竟去年就發(fā)布了B100和B200，這個就是小升級。

除了最強GPU之外，同時也推出了基于NV72互聯(lián)的72卡的機柜。

這是機柜中，GPU的節(jié)點，每層機架上面兩組GB300；每組GB300應(yīng)該是兩個GPU（B300），和一個CPU；所以一個機架應(yīng)該是，4個GPU，2個CPU

最上面是GPU節(jié)點，右邊蓋子上應(yīng)該是液冷的走線。

整板的設(shè)計圖應(yīng)該如上所示。

這CPU和GPU以及NVLINK連接的圖，可以參照如下

可以看到，除了NVLINK之外，還為每個GPU配了一個800G的網(wǎng)卡，CX-8。

所以，72個GPU，需要18層。上面10層，下面8層，中間是NVLINK交換機。

中間則是NV-Switch的部分。14.4T的聚合帶寬。

除了單個機柜，還有八個機柜的superpod，里面集成了288 Grace CPU，576 Blackwell Utlra GPU（GB300），300TB HBM3e內(nèi)存，288個 800G的CX8；還有NVSwich，51.2T的網(wǎng)絡(luò)交換機（SpectrumS）

最終達到的效果也比較驚人：11.5 ExaFLOPS FP4。

可以說，通過8個機柜就可以達到E級別超算能力（只在FP4）下。

也算一個不小本事。

在芯片部分，BLackWell Ultra也就是B300。

與現(xiàn)有的B200相比，提升了50%以上的內(nèi)存和FP4計算能力。

整好是B100的兩倍。

Blackwell Ultra B300還增加HBM3e堆棧的容量。

從192GB增加到288GB。

B300的實現(xiàn)有兩種可能，一種是封裝了4個DIE，就是兩個B100（B100就是兩個DIE）的就計算能力，第二種就是還是2個DIE，只不過每個DIE上更多的SM核。

就像從B100升級到B200。

具體哪一種，還要看后續(xù)，目前有沒有更詳細的手冊。

Blackwell Ultra可以使用DeepSeek R1-671B模型進行了評估。

每秒發(fā)送多達1000個token。

(這個應(yīng)該不是最大的，ISSCC上的groq的LPU也能達到上千的token)。

與之相比，H100秒只提供最多100個token。

因此，吞吐量增加了10倍，將處理較大查詢的時間從1.5分鐘縮短到10秒。

并且預(yù)告了下一代的rubin和在再下一代的Feynman

其實下一代不是一個芯片，而是一個芯片組。

比如rubin的GPU預(yù)計會換成HBM4，同時還有更大的計算能力。

NVlink SWITCH能力也提升了。（3600GB/s）

還有1.6T的網(wǎng)卡CX9,還可以用CPO全光的模塊

和更大容量的交換，102.4T的交換機。

這一代是72個GPU的NVLINK組合的機柜。

下一代就是576個GPU的nvlink的機柜了。

scaleup 的能力從72卷到了576，這個超節(jié)點的能力也沒有誰了。

單個芯片太難卷了。

現(xiàn)在就要卷集群。

從單個GPU到多個GPU的機架，再到多個機架的集群（POD）。

英偉達把系統(tǒng)集成商的活干了，并且管這玩意叫大GPU。

這種方案，直接對接最終客戶，

提供交鑰匙的方案（turn key）。

還配套發(fā)布Dynamo推理加速庫和Mission Control運維平臺，并通過AI托管服務(wù)（Instant AI Factory）降低運維門檻。

從硬件到生態(tài)的全棧閉環(huán)

有點超越傳統(tǒng)芯片廠的范疇，形成軟硬一體的生態(tài)系統(tǒng)：

這屬于AI factory的范疇了。

這種芯片廠直接對接客戶方的方式。

沒有了系統(tǒng)集成廠商。

傳統(tǒng)，業(yè)界采取是：

芯片商-系統(tǒng)商-客戶三級的方式。

（例如intel芯片由DELL做成服務(wù)器賣給meta）

直接變成了芯片商（nvidia）-客戶（meta）兩級的方式。

一方面，在AI智算時代，這個系統(tǒng)集成的工作非常復(fù)雜了不少，我們前面就可以看到。

需要CPU,GPU,NVswitch,NIC,switch多系統(tǒng)配合，

另一方面，AI系統(tǒng)的調(diào)優(yōu)和優(yōu)化，很多原廠才能具備的能力

或者原廠的能力也不太夠。

因為模型在變，各種技術(shù)棧和未知點太多了。

AI大神李沐就吐槽過，用過英偉達的智算集群，在訓練時，出了很多問題，給他們解決了很多BUG。

這種能力，傳統(tǒng)的系統(tǒng)集成廠商積累的就更少了。

智算集群這一模式直接沖擊傳統(tǒng)集成商的兩大生存空間。

AMD收購系統(tǒng)集成商ZT system，也是要做AI智算集群，仿效英偉達提供交鑰匙方案。

看來，不論老黃還是蘇媽都看上這個市場，不想給中間商賺差價的機會啊。

我是歪睿老哥，一個喜歡科普的架構(gòu)師，如果你覺得本文還不錯，歡迎寫出你的觀點，點贊，在看，分享。

版權(quán)聲明：與非網(wǎng)經(jīng)原作者授權(quán)轉(zhuǎn)載，版權(quán)屬于原作者。文章觀點僅代表作者本人，不代表與非網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有侵權(quán)或者其他問題，請聯(lián)系本站作侵刪。侵權(quán)投訴

人工客服
（售后/吐槽/合作/交友）

英偉達

NVIDIA（中國大陸譯名：英偉達，港臺譯名：輝達），成立于1993年，是一家美國跨國科技公司，總部位于加利福尼亞州圣克拉拉市，由黃仁勛、克里斯·馬拉科夫斯基（Chris Malachowsky）和柯蒂斯·普里姆（Curtis Priem）共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計業(yè)務(wù)，隨著公司技術(shù)與業(yè)務(wù)發(fā)展，已成長為一家提供全棧計算的人工智能公司，致力于開發(fā)CPU、DPU、GPU和AI軟件，為建筑工程、金融服務(wù)、科學研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。

從GPU芯片到智算集群，英偉達不給中間商賺差價

相關(guān)推薦