NVIDIA 及其生態(tài)系統(tǒng)合作伙伴正在為 AI 推理時(shí)代構(gòu)建大規(guī)模 AI 工廠,而每家企業(yè)都將需要一個(gè)這樣的工廠。
AI 正在推動(dòng)新一輪工業(yè)革命——這是一場由 AI 工廠驅(qū)動(dòng)的革命。
與傳統(tǒng)數(shù)據(jù)中心不同,AI 工廠不僅僅存儲(chǔ)和處理數(shù)據(jù),它們還大規(guī)模地生產(chǎn)智能,將原始數(shù)據(jù)轉(zhuǎn)化為實(shí)時(shí)見解。對于全球各地的企業(yè)和各國而言,這意味著價(jià)值實(shí)現(xiàn)的速度大幅提升,即將 AI 從長期投資轉(zhuǎn)變?yōu)閷?shí)現(xiàn)競爭優(yōu)勢的直接驅(qū)動(dòng)力。目前投資于專門建設(shè) AI 工廠的企業(yè)將在創(chuàng)新、效率和市場差異化方面占據(jù)領(lǐng)先地位。
傳統(tǒng)數(shù)據(jù)中心面向通用計(jì)算,通常處理各種各樣的工作負(fù)載,而 AI 工廠則經(jīng)過優(yōu)化,以便利用 AI 來創(chuàng)造價(jià)值。它們涵蓋 AI 的整個(gè)生命周期,從數(shù)據(jù)采集到訓(xùn)練、微調(diào),以及最為關(guān)鍵的大規(guī)模推理。
對 AI 工廠來說,智能并非副產(chǎn)品,而是主要產(chǎn)品。這種智能通過 AI token 吞吐量來衡量,也就是那些驅(qū)動(dòng)決策、自動(dòng)化和全新服務(wù)的實(shí)時(shí)預(yù)測。
傳統(tǒng)數(shù)據(jù)中心短期內(nèi)不會(huì)消失,但其未來是將演變成 AI 工廠還是連接到 AI 工廠,將取決于企業(yè)的商業(yè)模式。
無論企業(yè)如何選擇,NVIDIA 驅(qū)動(dòng)的 AI 工廠已經(jīng)在大規(guī)模地生產(chǎn)智能,正在改變 AI 的構(gòu)建、優(yōu)化和部署方式。
點(diǎn)擊視頻,走進(jìn) AI 工廠如何創(chuàng)造智能
驅(qū)動(dòng)計(jì)算需求的擴(kuò)展定律
在過去幾年里,AI 領(lǐng)域的熱點(diǎn)是訓(xùn)練大模型。但隨著近期 AI 推理模型大量涌現(xiàn),推理已經(jīng)成為 AI 經(jīng)濟(jì)的主要驅(qū)動(dòng)力。三條關(guān)鍵的擴(kuò)展定律(scaling law)揭示了其中的原因:
預(yù)訓(xùn)練擴(kuò)展:更大的數(shù)據(jù)集和更多的模型參數(shù)能夠帶來可預(yù)見的智能水平提升,但這需要在專業(yè)技術(shù)專家、數(shù)據(jù)整理和計(jì)算資源方面進(jìn)行大量投入。在過去五年中,預(yù)訓(xùn)練擴(kuò)展使計(jì)算需求增長了 5000 萬倍。不過,一旦模型訓(xùn)練完成,就會(huì)大幅降低其他人在此基礎(chǔ)上進(jìn)行開發(fā)的門檻。
后訓(xùn)練擴(kuò)展:針對特定真實(shí)應(yīng)用對 AI 模型進(jìn)行微調(diào)時(shí),在 AI 推理過程中所需的算力是預(yù)訓(xùn)練的 30 倍。隨著各機(jī)構(gòu)根據(jù)自身獨(dú)特需求而調(diào)整現(xiàn)有模型,對 AI 基礎(chǔ)設(shè)施的累積需求也會(huì)急劇飆升。
測試時(shí)擴(kuò)展(又稱長思考):像代理式 AI 或物理 AI 這類先進(jìn)的 AI 應(yīng)用需要進(jìn)行迭代推理,即模型在做出最佳響應(yīng)之前會(huì)探索多種可能的答案。這個(gè)過程所需的算力比傳統(tǒng)推理多出 100 倍。
傳統(tǒng)數(shù)據(jù)中心并非為 AI 新時(shí)代而設(shè)計(jì)。AI 工廠則專門進(jìn)行了優(yōu)化以持續(xù)滿足這種巨大的算力需求,為 AI 推理和部署提供了一條理想的發(fā)展路徑。
用 Token 重塑產(chǎn)業(yè)與經(jīng)濟(jì)
全球范圍內(nèi),各國政府與企業(yè)都在競相建設(shè) AI 工廠,以刺激經(jīng)濟(jì)增長、促進(jìn)創(chuàng)新并提升效率。
歐洲高性能計(jì)算聯(lián)合體(EuroHPC JU)近期宣布,計(jì)劃與 17 個(gè)歐盟成員國攜手打造 7 座 AI 工廠。
在此之前,全球已掀起 AI 工廠投資熱潮,各個(gè)企業(yè)和國家都在加速利用 AI 驅(qū)動(dòng)各行業(yè)、各地區(qū)的經(jīng)濟(jì)增長:
印度:Yotta Data Services 與 NVIDIA 合作推出了 Shakti 云平臺(tái),致力于讓更多人能夠獲得先進(jìn)的 GPU 資源。通過集成 NVIDIA AI Enterprise 軟件與開源工具,Yotta 為 AI 開發(fā)與部署打造了一個(gè)無縫的環(huán)境。
日本:包括 GMO Internet、Highreso、KDDI、Rutilea 和 SAKURA internet 在內(nèi)的多家日本領(lǐng)先的云服務(wù)提供商,正在構(gòu)建 NVIDIA 驅(qū)動(dòng)的 AI 基礎(chǔ)設(shè)施,以推動(dòng)機(jī)器人、汽車、醫(yī)療和電信等行業(yè)的變革。
挪威:Telenor 集團(tuán)推出了一座基于 NVIDIA 打造的 AI 工廠,目的是在北歐地區(qū)加快 AI 應(yīng)用,重點(diǎn)關(guān)注勞動(dòng)力技能提升與可持續(xù)發(fā)展。
這些行動(dòng)充分表明,AI 工廠正在全球范圍內(nèi)迅速成為與電信、能源同樣重要的國家基礎(chǔ)設(shè)施。
走進(jìn) AI 工廠:生產(chǎn)智能的地方
基礎(chǔ)模型、安全的客戶數(shù)據(jù)以及 AI 工具就是 AI 工廠的原材料。在 AI 工廠中,推理服務(wù)、原型設(shè)計(jì)和微調(diào)塑造出強(qiáng)大的定制化模型,可以隨時(shí)投入實(shí)際應(yīng)用。
當(dāng)這些模型被部署到真實(shí)的應(yīng)用場景中時(shí),它們會(huì)不斷地從新數(shù)據(jù)中學(xué)習(xí)。這些新數(shù)據(jù)通過數(shù)據(jù)飛輪進(jìn)行存儲(chǔ)、優(yōu)化,然后再反饋到系統(tǒng)中。這種優(yōu)化循環(huán)確保了 AI 能夠持續(xù)地適應(yīng)變化、保持高效并不斷改進(jìn),以前所未有的規(guī)模推動(dòng)企業(yè)智能化發(fā)展。
利用全棧 NVIDIA AI 打造 AI 工廠的優(yōu)勢
NVIDIA 提供完整、集成的 AI 工廠堆棧,從芯片到軟件的每一層都針對大規(guī)模訓(xùn)練、微調(diào)及推理進(jìn)行了優(yōu)化。這種全棧式方法確保企業(yè)能夠部署經(jīng)濟(jì)高效、高性能且面向未來的 AI 工廠,以應(yīng)對 AI 的指數(shù)級(jí)增長。
通過生態(tài)系統(tǒng)合作伙伴,NVIDIA 打造了全棧 AI 工廠的構(gòu)建模塊,這一全棧方案包括以下模塊:
強(qiáng)大的計(jì)算性能
先進(jìn)的網(wǎng)絡(luò)
基礎(chǔ)設(shè)施管理和工作負(fù)載編排
最龐大的 AI 推理生態(tài)系統(tǒng)
存儲(chǔ)和數(shù)據(jù)平臺(tái)
設(shè)計(jì)與優(yōu)化的各種藍(lán)圖
參考架構(gòu)
適用于各類企業(yè)的靈活部署方案
強(qiáng)大的計(jì)算性能
任何 AI 工廠的核心都在于其算力。從 NVIDIA Hopper 到 NVIDIA Blackwell,NVIDIA 為這場新的工業(yè)革命提供全球最強(qiáng)大的加速計(jì)算。借助基于 NVIDIA Blackwell Ultra 的 NVIDIA Grace Blackwell 機(jī)架式解決方案,AI 工廠的 AI 推理輸出最高可提升 50 倍,樹立了效率和規(guī)模的新標(biāo)桿。
NVIDIA DGX SuperPOD 是交鑰匙式企業(yè) AI 工廠的典范,聚合了 NVIDIA 加速計(jì)算的優(yōu)勢。NVIDIA DGX Cloud 提供的 AI 工廠能在云端提供高性能的 NVIDIA 加速計(jì)算。
全球各地的系統(tǒng)合作伙伴正利用 NVIDIA 加速計(jì)算技術(shù),為其客戶打造全棧 AI 工廠。目前的加速計(jì)算平臺(tái)包括了基于 Blackwell 和 Blackwell Ultra 的 NVIDIA Grace Blackwell 機(jī)架式解決方案。
先進(jìn)的網(wǎng)絡(luò)
大規(guī)模地傳輸智能需要在整個(gè) AI 工廠堆棧中實(shí)現(xiàn)高性能的無縫連接。NVIDIA NVLink 和 NVLink Switch 支持高速的多 GPU 通信,加速節(jié)點(diǎn)內(nèi)部和節(jié)點(diǎn)之間的數(shù)據(jù)傳輸。
AI 工廠還需要強(qiáng)大的網(wǎng)絡(luò)骨干。NVIDIA Quantum InfiniBand、NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺(tái)和 NVIDIA BlueField 網(wǎng)絡(luò)平臺(tái)可減少瓶頸,確保在大規(guī)模 GPU 集群上實(shí)現(xiàn)高效、高吞吐量的數(shù)據(jù)交換。這種端到端的集成對于將 AI 工作負(fù)載擴(kuò)展到百萬 GPU 級(jí)別至關(guān)重要,實(shí)現(xiàn)了突破性的訓(xùn)練和推理性能。
基礎(chǔ)設(shè)施管理和工作負(fù)載編排
企業(yè)需要既能利用超大規(guī)模云服務(wù)提供商那樣敏捷、高效且大規(guī)模的 AI 基礎(chǔ)設(shè)施,又無需承擔(dān)高昂成本、復(fù)雜性且具備 IT 專業(yè)知識(shí)等的負(fù)擔(dān)。
借助 NVIDIA Run:ai,企業(yè)能夠無縫實(shí)現(xiàn) AI 工作負(fù)載編排和 GPU 管理,在加速 AI 實(shí)驗(yàn)進(jìn)程和擴(kuò)展工作負(fù)載的同時(shí),還可以優(yōu)化資源利用率。NVIDIA Mission Control 軟件集成了 NVIDIA Run:ai 技術(shù),優(yōu)化了從工作負(fù)載到基礎(chǔ)設(shè)施的 AI 工廠運(yùn)營流程,通過全棧智能實(shí)現(xiàn)業(yè)界領(lǐng)先的基礎(chǔ)設(shè)施韌性。
最龐大的 AI 推理生態(tài)系統(tǒng)
AI 工廠需要合適的工具才能將數(shù)據(jù)轉(zhuǎn)化為智能。NVIDIA AI 推理平臺(tái)(涵蓋了 NVIDIA TensorRT 生態(tài)系統(tǒng))、NVIDIA Dynamo 以及 NVIDIA NIM 微服務(wù)——這些均已成為或即將成為 NVIDIA AI Enterprise 軟件平臺(tái)的一部分,可提供行業(yè)內(nèi)最全面的 AI 加速庫和經(jīng)過優(yōu)化的軟件套件,同時(shí)提供非凡的推理性能、超低延遲以及高吞吐量。
存儲(chǔ)和數(shù)據(jù)平臺(tái)
數(shù)據(jù)是 AI 應(yīng)用的驅(qū)動(dòng)力,但企業(yè)數(shù)據(jù)迅速增長且越來越復(fù)雜,常常使得有效利用這些數(shù)據(jù)的成本過高且耗時(shí)過長。為了在 AI 時(shí)代蓬勃發(fā)展,企業(yè)必須充分釋放其數(shù)據(jù)的全部潛力。
NVIDIA AI 數(shù)據(jù)平臺(tái)是一個(gè)可定制的參考設(shè)計(jì),用于為要求苛刻的 AI 推理工作負(fù)載構(gòu)建新型 AI 基礎(chǔ)設(shè)施。NVIDIA 認(rèn)證存儲(chǔ)合作伙伴正與 NVIDIA 合作,開發(fā)定制化的 AI 數(shù)據(jù)平臺(tái),這些平臺(tái)能夠充分利用企業(yè)數(shù)據(jù),針對復(fù)雜的查詢進(jìn)行推理并提供答案。
設(shè)計(jì)與優(yōu)化藍(lán)圖
為了設(shè)計(jì)和優(yōu)化 AI 工廠,團(tuán)隊(duì)可以使用用于 AI 工廠設(shè)計(jì)和運(yùn)營的 NVIDIA Omniverse Blueprint。它讓工程師能夠在部署前利用數(shù)字孿生技術(shù)對 AI 工廠基礎(chǔ)設(shè)施進(jìn)行設(shè)計(jì)、測試和優(yōu)化。通過降低風(fēng)險(xiǎn)和不確定性,它有助于避免代價(jià)高昂的停機(jī),這對于 AI 工廠的運(yùn)營者來說是一個(gè)關(guān)鍵因素。
對于規(guī)模達(dá)到 1 吉瓦的 AI 工廠而言,停機(jī)一天造成的損失可能超過 1 億美元。通過提前消除復(fù)雜性并讓 IT、機(jī)械、電氣、電力和網(wǎng)絡(luò)工程等團(tuán)隊(duì)能夠并行工作,用于 AI 工廠設(shè)計(jì)和運(yùn)營的 NVIDIA Omniverse Blueprint 加快了部署速度,并確保了運(yùn)營的韌性。
參考架構(gòu)
NVIDIA 企業(yè)參考架構(gòu)和 NVIDIA 云合作伙伴參考架構(gòu)為設(shè)計(jì)和部署 AI 工廠的合作伙伴提供了路線圖。借助包含 NVIDIA AI 軟件堆棧的 NVIDIA 認(rèn)證系統(tǒng)以及合作伙伴生態(tài)系統(tǒng),企業(yè)和云服務(wù)提供商將能夠構(gòu)建可擴(kuò)展、高性能且安全的 AI 基礎(chǔ)設(shè)施。
AI 工廠堆棧的每一層都依賴高效的計(jì)算來滿足不斷增長的 AI 需求。NVIDIA 加速計(jì)算是整個(gè)堆棧的基礎(chǔ),它提供最高的每瓦性能,確保 AI 工廠保持最高的能效。借助節(jié)能的架構(gòu)和液冷技術(shù),企業(yè)在擴(kuò)展 AI 規(guī)模的同時(shí),還能控制能源成本。
適用于各類企業(yè)的靈活部署方案
借助 NVIDIA 的全棧技術(shù),企業(yè)能夠輕松地構(gòu)建和部署 AI 工廠,使之契合客戶偏好的 IT 使用模式和運(yùn)營需求。
一些機(jī)構(gòu)選擇搭建本地 AI 工廠,以便完全掌控?cái)?shù)據(jù)和性能,而另一些機(jī)構(gòu)則采用云端解決方案,以實(shí)現(xiàn)可擴(kuò)展性和靈活性。許多企業(yè)還會(huì)從其信賴的全球系統(tǒng)合作伙伴那里購買預(yù)集成解決方案,以加快部署進(jìn)程。
采用 NVIDIA Grace Blackwell Ultra 超級(jí)芯片的 NVIDIA DGX 系統(tǒng)是性能最高、規(guī)模最大的 AI 工廠基礎(chǔ)設(shè)施,它適用于企業(yè),專為 AI 推理時(shí)代而打造。
本地部署
NVIDIA DGX SuperPOD 是交鑰匙式 AI 工廠基礎(chǔ)設(shè)施解決方案,為要求最嚴(yán)苛的 AI 訓(xùn)練和推理工作負(fù)載提供具有可擴(kuò)展性能的加速基礎(chǔ)設(shè)施。它的特點(diǎn)是將 AI 計(jì)算、網(wǎng)絡(luò)架構(gòu)、存儲(chǔ)和 NVIDIA Mission Control 軟件進(jìn)行了優(yōu)化設(shè)計(jì)組合,使企業(yè)能夠在幾周內(nèi)(而非數(shù)月)讓 AI 工廠投入使用,并且具備一流的正常運(yùn)行時(shí)間、韌性和利用率。
通過 NVIDIA 的全球企業(yè)技術(shù)合作伙伴生態(tài)系統(tǒng),AI 工廠解決方案也以 NVIDIA 認(rèn)證系統(tǒng)的形式提供。這些合作伙伴提供領(lǐng)先的硬件和軟件技術(shù),結(jié)合數(shù)據(jù)中心系統(tǒng)專業(yè)知識(shí)和液冷創(chuàng)新技術(shù),幫助企業(yè)降低 AI 項(xiàng)目的風(fēng)險(xiǎn),并更快地從 AI 工廠投資中獲得回報(bào)。
這些全球系統(tǒng)合作伙伴正在基于 NVIDIA 參考架構(gòu)提供全棧解決方案,將 NVIDIA 加速計(jì)算、高性能網(wǎng)絡(luò)和 AI 軟件集成在一起,幫助其客戶成功地部署 AI 工廠并大規(guī)模地生產(chǎn)智能。
云端部署
對于希望采用云端 AI 工廠解決方案的企業(yè),NVIDIA DGX Cloud 在領(lǐng)先的云上提供了一個(gè)統(tǒng)一的平臺(tái),用于構(gòu)建、定制和部署 AI 應(yīng)用。DGX Cloud 的每一層都進(jìn)行了優(yōu)化并由 NVIDIA 全面管理,它具備 NVIDIA AI 在云端的優(yōu)勢,并依托領(lǐng)先的云服務(wù)提供商構(gòu)提供企業(yè)級(jí)軟件和構(gòu)建大規(guī)模的連續(xù)集群,尤其適合為要求最嚴(yán)苛的 AI 訓(xùn)練工作負(fù)載提供可擴(kuò)展的計(jì)算資源。
DGX Cloud 還包括一個(gè)動(dòng)態(tài)、可擴(kuò)展的無服務(wù)器推理平臺(tái),該平臺(tái)在混合云和多云環(huán)境中提供極高的 AI token 吞吐量,顯著降低了基礎(chǔ)設(shè)施的復(fù)雜性和運(yùn)營開銷。
通過提供一個(gè)集成了硬件、軟件、生態(tài)系統(tǒng)合作伙伴和參考架構(gòu)的全棧平臺(tái),NVIDIA 正在幫助企業(yè)構(gòu)建經(jīng)濟(jì)高效、可擴(kuò)展、高性能的 AI 工廠,使其有能力迎接下一次工業(yè)革命。