2025年3月19日,一場(chǎng)屬于AI的盛宴在美國(guó)的圣何塞拉開序幕,隨著AI在各個(gè)領(lǐng)域的普及與快速發(fā)展,今年的GTC大會(huì)關(guān)注度明顯更高,以至于英偉達(dá)CEO黃仁勛在開場(chǎng)致辭里直接將大會(huì)形容為「AI界的超級(jí)碗」(超級(jí)碗是美國(guó)最受歡迎的體育賽事,其關(guān)注度甚至高于NBA總決賽)。下面就讓我們直入主題,看看此次GTC 2025最值得關(guān)注的內(nèi)容。
新“核彈”要等明年,舊“核彈”還能戰(zhàn)
與往年一樣,今年的英偉達(dá)同樣帶來了全新的計(jì)算芯片——Blackwell Ultra和“期貨”芯片Rubin。其中,Blackwell Ultra實(shí)際上是Blackwell的升級(jí)版,已經(jīng)開始接受預(yù)訂,在性能與帶寬等方面對(duì)比前代都有所升級(jí),并且適配最新的NVLink技術(shù),擁有更高的帶寬和速度。
雖然在大會(huì)上并沒有公布GB300的價(jià)格,但是參考GB200的售價(jià)來看,新芯片的價(jià)格顯然不會(huì)便宜,而且英偉達(dá)貌似暫時(shí)并不打算單獨(dú)出售顯卡,目前還是以機(jī)柜的方式進(jìn)行整套銷售,不過和昂貴的芯片相比,機(jī)柜其他配件的價(jià)格倒也顯得“微不足道”了。從英偉達(dá)公布的參數(shù)來看,Blackwell Ultra的顯存從192GB升級(jí)為288GB,而在NVL72狀態(tài)下(72顆芯片互聯(lián))AI性能是GB200的1.5倍。老實(shí)說這個(gè)數(shù)據(jù)遠(yuǎn)不如從Hopper架構(gòu)跳到Blackwell架構(gòu)時(shí)驚艷,而且官方給出的數(shù)據(jù)里對(duì)整體性能提升也是“語焉不詳”,只是著重提到FP4推理性能提高50%。而且從官網(wǎng)給出的數(shù)據(jù)對(duì)比來看,F(xiàn)P4推理性能的提升與FP64和INT8的推理性能被砍掉有關(guān),前者從296 TFLOPS直接掉到10 TFLOPS,后者則是從72 PFLOPS掉到僅剩2 PFLOPS,省下來的算力資源都被塞到了FP4里。
顯然,高精度的推理和訓(xùn)練已經(jīng)逐漸被拋棄,以FP8、FP4為主的低精度訓(xùn)練正在成為主流。其實(shí)這里面也有不少DeepSeek的功勞,前段時(shí)間開源的一系列技術(shù)中就包括“如何在FP8低精度下保證訓(xùn)練和推理命中率”的相關(guān)方案,也正是靠著這套方案,DeepSeek的訓(xùn)練成本和推理成本才會(huì)遠(yuǎn)低于其他AI企業(yè)。不過目前來看,通過降低精度來提高算力效率的路也差不多走到頭了,F(xiàn)P4再往下的精度就很難確保效率和成本都滿足需求了,為了糾正錯(cuò)誤所需要付出的資源可能超過在更高精度下訓(xùn)練的成本。
雖然算力提升幅度存疑,但是顯存的增長(zhǎng)卻是實(shí)打?qū)嵉模貏e是推理模型大行其道的當(dāng)下,AI推理和訓(xùn)練對(duì)帶寬的要求遠(yuǎn)比以前更高。所以GB300的銷量還是很可觀的,據(jù)黃仁勛透露,亞馬遜、 微軟等企業(yè)已經(jīng)提前下了360萬顆Blackwell Ultra芯片的訂單,將進(jìn)一步拓展他們位于全球各地的AI算力中心。聊完Blackwell Ultra,再來看看“期貨”芯片Rubin,這才是英偉達(dá)真正的下一代芯片,單芯片的FP4性能提升到25 PFLOPS,而完整的Rubin是雙芯片設(shè)計(jì),所以實(shí)際FP4性能高達(dá)50 PFLOPS,是Blackwell Ultra的三倍以上。此外,顯存也升級(jí)為HBM4,雖然容量仍然是288GB,但是帶寬從8TB/s升級(jí)到13TB/s,在NVLink狀態(tài)下吞吐量高達(dá)260TB/s,是前代的兩倍。
而且Rubin支持NVL144,也就是單個(gè)機(jī)柜最高可串聯(lián)144顆芯片,提供高達(dá)3.6EF的FP4算力或1.2 EF的FP8算力。作為對(duì)比,NVL72的Blackwell Ultra只有1.1EF的FP4算力,F(xiàn)P8算力更是只有0.36 EF,差距非常明顯。除了Rubin外,英偉達(dá)這次也直接把Rubin Ultra一起展示了,最高支持NVL576,擁有15 EF的FP4算力和5EF的FP8算力,性能是GB300 NVL72的14倍,單組芯片配備1TB的HBM4e內(nèi)存,顯存帶寬高達(dá)4.6PB/s,NVLink 7將為其提供高達(dá)1.5PB/s的帶寬速度。
雖然數(shù)據(jù)看起來非常嚇人,不過單從算力來看基本上沒有多少增長(zhǎng),因?yàn)镽ubin Ultra就是兩個(gè)Rubin組合在一起而已(Blackwell的GB200也是如此),所以最主要的升級(jí)還是新的NVLink和顯存。雖然Rubin架構(gòu)的參數(shù)很誘人,但是最快也要等到2026年下半年才會(huì)開始出貨,而Rubin Ultra更是要等到2027年下半年,你可以理解為英偉達(dá)直接把未來兩年的更新計(jì)劃提前透了底,估計(jì)也是為了提振市場(chǎng)對(duì)英偉達(dá)的信心。至于2028年才會(huì)上市的“Feynman”,就單純只有一個(gè)名字了,更多的信息并沒有公開,只能說英偉達(dá)是懂得畫餅的??傮w來說,Blackwell Ultra雖然不如此前猜測(cè)的那樣提升巨大,但是也更契合當(dāng)下的AI模型訓(xùn)練和推理需求,隨著Blackwell Ultra的陸續(xù)普及,全球算力規(guī)模估計(jì)會(huì)迎來新一輪的暴漲。
DeepSeek讓英偉達(dá)“賣得越多,賺得越多”
雖然新芯片的發(fā)布關(guān)注度很高,不過最有意思的還是老黃的新金句:“買得越多、賺得越多”,普羅大眾是否認(rèn)可這個(gè)觀點(diǎn)尚且不談,反正四大云服務(wù)器運(yùn)營(yíng)商是認(rèn)可了,這也是英偉達(dá)“賣得越多,賺得越多”。這讓我不禁想起前段時(shí)間隨著DeepSeek的爆火,一度有著很高討論度的話題“AI不再需要英偉達(dá)顯卡”,現(xiàn)在看來,市場(chǎng)給出了這個(gè)問題的答案:“AI或許不再獨(dú)鐘于英偉達(dá)顯卡,但是我們現(xiàn)在需要更多的算力了。”而按下這場(chǎng)算力競(jìng)賽加速鍵的企業(yè),或許正是DeepSeek。
在今年的演講里,DeepSeek的出場(chǎng)率相當(dāng)高,直接取代了去年的主角ChatGPT,黃仁勛也用DeepSeek來解釋為什么AI算力需求不僅沒有下降,反而在增長(zhǎng)。作為范例與DeepSeek對(duì)比的是LLama 3,一個(gè)傳統(tǒng)的AI大模型,在回答同一個(gè)問題時(shí),LLama只用了不到500 Token就輸出了回答,而DeepSeek則是用了高達(dá)8559 Token來輸出答案。
結(jié)果是顯而易見的,LLama給出了錯(cuò)誤答案,而DeepSeek則答對(duì)了,為了避免大家覺得DeepSeek-R1用671B的參數(shù)量“欺負(fù)”只有70B參數(shù)量的LLama,演示視頻還貼心地備注“活躍參數(shù)37B”的字樣。這也是DeepSeek-R1這類稀疏型AI大模型的特點(diǎn),雖然參數(shù)量龐大,但是每次實(shí)際調(diào)用的參數(shù)量并不算多,甚至?xí)葌鹘y(tǒng)AI大模型更少。不過,即使活躍參數(shù)量?jī)H為37B,DeepSeek所使用的Token量也遠(yuǎn)超LLama,因?yàn)镈eepSeek是推理模型,在輸出實(shí)際答案前會(huì)先進(jìn)行多輪思考,并且在得到結(jié)果后會(huì)主動(dòng)進(jìn)行驗(yàn)證,只有確定答案符合標(biāo)準(zhǔn)后才進(jìn)行實(shí)際的回答輸出。隨著DeepSeek將自己的優(yōu)化過程和深度學(xué)習(xí)方案開源,許多AI模型都開始引入類似的長(zhǎng)思考鏈步驟,雖然讓回答的質(zhì)量比以前高了很多,但是對(duì)算力的需求也與日俱增,如果不是DeepSeek公布了全套的優(yōu)化方案,恐怕大多數(shù)AI公司的虧損要翻一倍不止。以目前的形勢(shì)來看,推理模型淘汰傳統(tǒng)AI模型已經(jīng)沒有懸念了,這也意味著即使后續(xù)的AI模型及推理過程優(yōu)化更進(jìn)一步,想要滿足更大參數(shù)規(guī)模和更復(fù)雜的推理所需要的算力資源仍然是個(gè)天文數(shù)字。而在算力性能上,英偉達(dá)仍然是斷崖式領(lǐng)先的存在,即使DeepSeek證明了繞過英偉達(dá)顯卡也能確保推理效率,但是英偉達(dá)還是多數(shù)廠商的首選。
這也是為什么在DeepSeek爆火導(dǎo)致英偉達(dá)股價(jià)暴跌后,黃仁勛接受采訪時(shí)卻表示DeepSeek其實(shí)是利好英偉達(dá),并非“死鴨子嘴硬”,而是看到了DeepSeek所采用的稀疏架構(gòu)推理模型方案背后對(duì)算力的恐怖需求。黃仁勛認(rèn)為,長(zhǎng)思維鏈所帶來的效果顯而易見,沒有AI企業(yè)可以拒絕這樣的誘惑。但是隨著AI模型的參數(shù)量進(jìn)一步增長(zhǎng),當(dāng)這個(gè)數(shù)字達(dá)到萬億、數(shù)萬億后,算力效率的重要性將更加凸顯。因?yàn)樗懔π手苯記Q定Token輸出速度,如果你的Token輸出速度太慢,那么用戶可能要半天才能得到自己想要的答案,他們會(huì)抱怨并直接轉(zhuǎn)投其他AI的懷抱。想要高效且高質(zhì)量的為用戶提供AI服務(wù),那么只有堆高算力規(guī)模,并且用上最新的英偉達(dá)芯片行業(yè)技術(shù)(黃仁勛的原話),才能讓企業(yè)在競(jìng)爭(zhēng)里領(lǐng)先對(duì)手且吸引用戶加入。而且,隨著算力規(guī)模的上升,效率增長(zhǎng)的同時(shí)也會(huì)促使成本下降,讓企業(yè)能夠從每一次用戶訪問中獲得更高的利潤(rùn),也就是黃仁勛所說的“買得越多,賺得越多”。
為了幫助企業(yè)實(shí)現(xiàn)這個(gè)目標(biāo),英偉達(dá)還發(fā)布了Dynamo,并將其稱為“AI工廠的操作系統(tǒng)”,借助這個(gè)系統(tǒng)的整合優(yōu)化可以將計(jì)算機(jī)的Token生成效率成倍提高,解決Token生成速度不足的問題。
英偉達(dá)的終極野望:要做AI的超級(jí)工廠?
在英偉達(dá)的設(shè)想中,未來的計(jì)算機(jī)將不再是軟件的運(yùn)行基礎(chǔ),Token將成為軟件及一切服務(wù)的根基,而計(jì)算機(jī)則變成生產(chǎn)Token的工廠,也就是“AI工廠”,能夠以流水線的方式生產(chǎn)AI模型。簡(jiǎn)單來說,AI工廠可以根據(jù)用戶輸入的需求,全自動(dòng)化的訓(xùn)練一個(gè)專屬AI模型,這個(gè)AI模型或許參數(shù)規(guī)模不大,但是卻針對(duì)你的需求進(jìn)行特化訓(xùn)練,其效果絲毫不比大參數(shù)量的通用模型差,也就是做到AI模型的“千人千面”。
不得不說,這是一個(gè)非常誘人的未來,不過背后所需要的AI基礎(chǔ)設(shè)施覆蓋率和算力規(guī)模也是相當(dāng)?shù)目植?,恐怕需要全世界全行業(yè)都深度參與其中才能搭建出整套系統(tǒng)的雛形。或許正是考慮到這一點(diǎn),英偉達(dá)宣布將把Dynamo系統(tǒng)開源,支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM等多種框架,方便各個(gè)企業(yè)針對(duì)自己的AI工廠進(jìn)行優(yōu)化和調(diào)整。自從DeepSeek掀開AI領(lǐng)域的開源浪潮后,越來越多的AI企業(yè)也意識(shí)到了開源的重要性,并加入開源陣營(yíng)中,DeepSeek掀起的浪潮注定不會(huì)停歇,這場(chǎng)AI革命的序幕才剛剛拉開。回顧英偉達(dá)的GTC 2025大會(huì),你會(huì)發(fā)現(xiàn)硬件不再是唯一的核心內(nèi)容,英偉達(dá)正在著手構(gòu)建一個(gè)全新的智能生態(tài),在這個(gè)生態(tài)里算力是一切的基礎(chǔ),只要大家都認(rèn)可并共同致力于維護(hù)這個(gè)生態(tài),那么在算力性能上具有優(yōu)勢(shì)的英偉達(dá)自然也就高枕無憂了。