GTC25上,老黃拿出了最新也是最強的BLackWell Ultra GPU(B300),不過這個不是重點,畢竟去年就發(fā)布了B100和B200,這個就是小升級。
除了最強GPU之外,同時也推出了基于NV72互聯(lián)的72卡的機柜。
這是機柜中,GPU的節(jié)點,每層機架上面兩組GB300;每組GB300應(yīng)該是兩個GPU(B300),和一個CPU;所以一個機架應(yīng)該是,4個GPU,2個CPU
最上面是GPU節(jié)點,右邊蓋子上應(yīng)該是液冷的走線。
整板的設(shè)計圖應(yīng)該如上所示。
這CPU和GPU以及NVLINK連接的圖,可以參照如下
可以看到,除了NVLINK之外,還為每個GPU配了一個800G的網(wǎng)卡,CX-8。
所以,72個GPU,需要18層。上面10層,下面8層,中間是NVLINK交換機。
中間則是NV-Switch的部分。14.4T的聚合帶寬。
除了單個機柜,還有八個機柜的superpod,里面集成了288 Grace CPU,576 Blackwell Utlra GPU(GB300),300TB HBM3e內(nèi)存,288個 800G的CX8;還有NVSwich,51.2T的網(wǎng)絡(luò)交換機(SpectrumS)
最終達到的效果也比較驚人:11.5 ExaFLOPS FP4。
可以說,通過8個機柜就可以達到E級別超算能力(只在FP4)下。
也算一個不小本事。
在芯片部分,BLackWell Ultra也就是B300。
與現(xiàn)有的B200相比,提升了50%以上的內(nèi)存和FP4計算能力。
整好是B100的兩倍。
Blackwell Ultra B300還增加HBM3e堆棧的容量。
從192GB增加到288GB。
B300的實現(xiàn)有兩種可能,一種是封裝了4個DIE,就是兩個B100(B100就是兩個DIE)的就計算能力,第二種就是還是2個DIE,只不過每個DIE上更多的SM核。
就像從B100升級到B200。
具體哪一種,還要看后續(xù),目前有沒有更詳細的手冊。
Blackwell Ultra可以使用DeepSeek R1-671B模型進行了評估。
每秒發(fā)送多達1000個token。
(這個應(yīng)該不是最大的,ISSCC上的groq的LPU也能達到上千的token)。
與之相比,H100秒只提供最多100個token。
因此,吞吐量增加了10倍,將處理較大查詢的時間從1.5分鐘縮短到10秒。
并且預(yù)告了下一代的rubin和在再下一代的Feynman
其實下一代不是一個芯片,而是一個芯片組。
比如rubin的GPU預(yù)計會換成HBM4,同時還有更大的計算能力。
NVlink SWITCH能力也提升了。(3600GB/s)
還有1.6T的網(wǎng)卡CX9,還可以用CPO全光的模塊
和更大容量的交換,102.4T的交換機。
這一代是72個GPU的NVLINK組合的機柜。
下一代就是576個GPU的nvlink的機柜了。
scaleup 的能力從72卷到了576,這個超節(jié)點的能力也沒有誰了。
單個芯片太難卷了。
現(xiàn)在就要卷集群。
從單個GPU到多個GPU的機架,再到多個機架的集群(POD)。
英偉達把系統(tǒng)集成商的活干了,并且管這玩意叫大GPU。
這種方案,直接對接最終客戶,
提供交鑰匙的方案(turn key)。
還配套發(fā)布Dynamo推理加速庫和Mission Control運維平臺,并通過AI托管服務(wù)(Instant AI Factory)降低運維門檻。
從硬件到生態(tài)的全棧閉環(huán)
有點超越傳統(tǒng)芯片廠的范疇,形成軟硬一體的生態(tài)系統(tǒng):
這屬于AI factory的范疇了。
這種芯片廠直接對接客戶方的方式。
沒有了系統(tǒng)集成廠商。
傳統(tǒng),業(yè)界采取是:
芯片商-系統(tǒng)商-客戶三級的方式。
(例如intel芯片由DELL做成服務(wù)器賣給meta)
直接變成了芯片商(nvidia)-客戶(meta)兩級的方式。
一方面,在AI智算時代,這個系統(tǒng)集成的工作非常復(fù)雜了不少,我們前面就可以看到。
需要CPU,GPU,NVswitch,NIC,switch多系統(tǒng)配合,
另一方面,AI系統(tǒng)的調(diào)優(yōu)和優(yōu)化,很多原廠才能具備的能力
或者原廠的能力也不太夠。
因為模型在變,各種技術(shù)棧和未知點太多了。
AI大神李沐就吐槽過,用過英偉達的智算集群,在訓練時,出了很多問題,給他們解決了很多BUG。
這種能力,傳統(tǒng)的系統(tǒng)集成廠商積累的就更少了。
智算集群這一模式直接沖擊傳統(tǒng)集成商的兩大生存空間。
AMD收購系統(tǒng)集成商ZT system,也是要做AI智算集群,仿效英偉達提供交鑰匙方案。
看來,不論老黃還是蘇媽都看上這個市場,不想給中間商賺差價的機會啊。
我是歪睿老哥,一個喜歡科普的架構(gòu)師,如果你覺得本文還不錯,歡迎寫出你的觀點,點贊,在看,分享。