• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

從GPU芯片到智算集群,英偉達不給中間商賺差價

03/20 10:20
801
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

GTC25上,老黃拿出了最新也是最強的BLackWell Ultra GPU(B300),不過這個不是重點,畢竟去年就發(fā)布了B100和B200,這個就是小升級。

除了最強GPU之外,同時也推出了基于NV72互聯(lián)的72卡的機柜。

這是機柜中,GPU的節(jié)點,每層機架上面兩組GB300;每組GB300應(yīng)該是兩個GPU(B300),和一個CPU;所以一個機架應(yīng)該是,4個GPU,2個CPU

最上面是GPU節(jié)點,右邊蓋子上應(yīng)該是液冷的走線。

整板的設(shè)計圖應(yīng)該如上所示。

這CPU和GPU以及NVLINK連接的圖,可以參照如下

可以看到,除了NVLINK之外,還為每個GPU配了一個800G的網(wǎng)卡,CX-8。

所以,72個GPU,需要18層。上面10層,下面8層,中間是NVLINK交換機。

中間則是NV-Switch的部分。14.4T的聚合帶寬。

除了單個機柜,還有八個機柜的superpod,里面集成了288 Grace CPU,576 Blackwell Utlra GPU(GB300),300TB HBM3e內(nèi)存,288個 800G的CX8;還有NVSwich,51.2T的網(wǎng)絡(luò)交換機(SpectrumS)

最終達到的效果也比較驚人:11.5 ExaFLOPS FP4。

可以說,通過8個機柜就可以達到E級別超算能力(只在FP4)下。

也算一個不小本事。

芯片部分,BLackWell Ultra也就是B300。

與現(xiàn)有的B200相比,提升了50%以上的內(nèi)存和FP4計算能力。

整好是B100的兩倍。

Blackwell Ultra B300還增加HBM3e堆棧的容量。

從192GB增加到288GB。

B300的實現(xiàn)有兩種可能,一種是封裝了4個DIE,就是兩個B100(B100就是兩個DIE)的就計算能力,第二種就是還是2個DIE,只不過每個DIE上更多的SM核。

就像從B100升級到B200。

具體哪一種,還要看后續(xù),目前有沒有更詳細的手冊。

Blackwell Ultra可以使用DeepSeek R1-671B模型進行了評估。

每秒發(fā)送多達1000個token。

(這個應(yīng)該不是最大的,ISSCC上的groq的LPU也能達到上千的token)。

與之相比,H100秒只提供最多100個token。

因此,吞吐量增加了10倍,將處理較大查詢的時間從1.5分鐘縮短到10秒。

并且預(yù)告了下一代的rubin和在再下一代的Feynman

其實下一代不是一個芯片,而是一個芯片組

比如rubin的GPU預(yù)計會換成HBM4,同時還有更大的計算能力。

NVlink SWITCH能力也提升了。(3600GB/s)

還有1.6T的網(wǎng)卡CX9,還可以用CPO全光的模塊

和更大容量的交換,102.4T的交換機。

這一代是72個GPU的NVLINK組合的機柜。

下一代就是576個GPU的nvlink的機柜了。

scaleup 的能力從72卷到了576,這個超節(jié)點的能力也沒有誰了。

單個芯片太難卷了。

現(xiàn)在就要卷集群。

從單個GPU到多個GPU的機架,再到多個機架的集群(POD)。

英偉達把系統(tǒng)集成商的活干了,并且管這玩意叫大GPU。

這種方案,直接對接最終客戶,

提供交鑰匙的方案(turn key)。

還配套發(fā)布Dynamo推理加速庫和Mission Control運維平臺,并通過AI托管服務(wù)(Instant AI Factory)降低運維門檻。

硬件到生態(tài)的全棧閉環(huán)

有點超越傳統(tǒng)芯片廠的范疇,形成軟硬一體的生態(tài)系統(tǒng):

這屬于AI factory的范疇了。

這種芯片廠直接對接客戶方的方式。

沒有了系統(tǒng)集成廠商。

傳統(tǒng),業(yè)界采取是:

芯片商-系統(tǒng)商-客戶三級的方式。

(例如intel芯片由DELL做成服務(wù)器賣給meta)

直接變成了芯片商(nvidia)-客戶(meta)兩級的方式。

一方面,在AI智算時代,這個系統(tǒng)集成的工作非常復(fù)雜了不少,我們前面就可以看到。

需要CPU,GPU,NVswitch,NIC,switch多系統(tǒng)配合,

另一方面,AI系統(tǒng)的調(diào)優(yōu)和優(yōu)化,很多原廠才能具備的能力

或者原廠的能力也不太夠。

因為模型在變,各種技術(shù)棧和未知點太多了。

AI大神李沐就吐槽過,用過英偉達的智算集群,在訓練時,出了很多問題,給他們解決了很多BUG。

這種能力,傳統(tǒng)的系統(tǒng)集成廠商積累的就更少了。

智算集群這一模式直接沖擊傳統(tǒng)集成商的兩大生存空間。

AMD收購系統(tǒng)集成商ZT system,也是要做AI智算集群,仿效英偉達提供交鑰匙方案。

看來,不論老黃還是蘇媽都看上這個市場,不想給中間商賺差價的機會啊。

我是歪睿老哥,一個喜歡科普的架構(gòu)師,如果你覺得本文還不錯,歡迎寫出你的觀點,點贊,在看,分享。

英偉達

英偉達

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學研究、制造業(yè)、汽車等領(lǐng)域的計算解決方案提供支持。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄