• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

Talk King | CDCC 韓玉——智算挑戰(zhàn)破局:探索AI原生時代的基礎(chǔ)設(shè)施重構(gòu)之道

2小時前
152
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

摘要

2025年6月11-12日,“第6屆中國數(shù)據(jù)中心綠色能源大會”在上海成功召開。本屆大會以“AI原生 算力重構(gòu)”為主題,匯聚行業(yè)權(quán)威專家及領(lǐng)軍企業(yè),共同探討AI時代下數(shù)據(jù)中心的綠色轉(zhuǎn)型與基礎(chǔ)設(shè)施升級路徑。CDCC算力中心規(guī)劃設(shè)計研究員韓玉,受邀出席并以《智算基礎(chǔ)設(shè)施新挑戰(zhàn)探索》為題發(fā)表精彩演講。

 

在AI原生時代浪潮下,韓玉老師深刻剖析智算中心在規(guī)劃、建設(shè)、交付及運維全生命周期中面臨的“幾大關(guān)鍵挑戰(zhàn)”,包括容量規(guī)劃的動態(tài)需求、彈性功率對配電與制冷的沖擊、高投資快交付下的架構(gòu)兼容性,以及從設(shè)備維保向AI調(diào)度與能效優(yōu)化的運營能力重構(gòu)。

 

他提出以“風(fēng)液融合”、“模塊化離配”、“動態(tài)彈性設(shè)計”等為代表的一系列前瞻性應(yīng)對策略,為新一代智算基礎(chǔ)設(shè)施建設(shè)提供系統(tǒng)性參考與實踐思路,受到在場嘉賓高度關(guān)注。正如他所言:“智算基礎(chǔ)設(shè)施的每一次挑戰(zhàn),都是系統(tǒng)性能力的重構(gòu)機會?!?/strong>

現(xiàn)將演講內(nèi)容整理如下(有刪減),供廣大數(shù)據(jù)中心從業(yè)者參考。

大家上午好!今天想和大家分享的主題是:面對當(dāng)前不斷變化的行業(yè)現(xiàn)狀,智算基礎(chǔ)設(shè)施面臨的新挑戰(zhàn)。

 

我們確實遇到了一些新的挑戰(zhàn),也在這些挑戰(zhàn)中通過實際項目的探索,與一些行業(yè)同仁進(jìn)行了交流和嘗試。有些問題目前已經(jīng)找到了一些答案,有些則還在持續(xù)探索中。

 

容量彈性規(guī)劃的挑戰(zhàn)

第一個主題聚焦在“彈性”。這個“彈性”不僅僅是機柜功率的彈性,更是整個園區(qū)產(chǎn)出的容量和規(guī)劃,配電和制冷架構(gòu)適配等方面的彈性。尤其是在最新智算疊加變動的高密度液冷場景下,智算中心交付更多的波動性和不確定性,這也使得規(guī)劃方案到交付必須不斷調(diào)整,甚至面臨“更快交付”的壓力(T+3~4交付機電),結(jié)合我們過去在項目規(guī)劃、架構(gòu)設(shè)計方面的經(jīng)驗,在彈性容量規(guī)劃、交付方式、以及運營理解層面的一些實踐過程中的思考和探索,今天也會在這里做一個分享。

第一個問題,以往在做云計算架構(gòu)和容量設(shè)計的時候,首先關(guān)注的是一個園區(qū)單體應(yīng)該建多大,是以同城災(zāi)備、同城三中心這樣的架構(gòu)概念展開。如今的智算中心建設(shè)階段,大家開始傾向于在單體園區(qū)內(nèi)實現(xiàn)更大規(guī)模、分期、彈性功率部署。

 

具體體現(xiàn)在容量規(guī)劃上,過去網(wǎng)絡(luò)規(guī)劃中,討論的是幾千卡、幾千臺服務(wù)器的部署規(guī)模;而今天,萬卡級部署已經(jīng)成為常態(tài),甚至已經(jīng)出現(xiàn)了10萬卡、40萬卡乃至接近百萬卡規(guī)模的園區(qū)規(guī)劃。國內(nèi)已有具體項目案例的園區(qū)規(guī)劃設(shè)計達(dá)到40萬臺服務(wù)器的單體規(guī)模。與十幾年前我們認(rèn)為10到15兆瓦就算是“大型”數(shù)據(jù)中心相比,如今的單體園區(qū)已經(jīng)可以做到100兆瓦以上,甚至達(dá)到1 GW級別, GW級(吉瓦級)數(shù)據(jù)中心的實際交付案例指日可待。

 

回到“單體”規(guī)劃概念上,從十幾年前我們做單體15兆瓦數(shù)據(jù)中心,到現(xiàn)在進(jìn)入110kV變電站對應(yīng)單體百兆瓦級設(shè)計,容量是10倍跨越性的。對于機柜而言,功率也從早期的個位數(shù)千瓦,增長到現(xiàn)在的幾百千瓦甚至接近1兆瓦的組合機柜。原來那種分散式、PC級別的服務(wù)器布局,正在重新回歸“大型機”架構(gòu)。服務(wù)器的功率從過去的幾百瓦,變成了動輒十幾千瓦,容量的增長已經(jīng)不是10%、20%的波動,而是成百上千倍數(shù)值的躍遷。這意味著我們面臨系統(tǒng)和空間的彈性設(shè)計挑戰(zhàn)是量級上的,其場景波動性不再是小幅調(diào)整,而是可能以倍數(shù)級別進(jìn)行容量浮動,對設(shè)計提出了極高要求。

 

大容量規(guī)劃及交付挑戰(zhàn)——XAI在4個月交付100MW

我們以行業(yè)的具體案例,可以看到在傳統(tǒng)數(shù)據(jù)中心與新型智算中心之間,無論是單機功率密度還是網(wǎng)絡(luò)布線距離都面臨巨大挑戰(zhàn)。

 

這是美國特斯拉的XAI項目,采用改造工廠為智算中心。該項目在122天(約四個月)內(nèi)交付了100兆瓦,并計劃在接下來的90天(三個月)內(nèi),再交付100兆瓦。此案例也更和國內(nèi)的類似項目建設(shè)節(jié)奏相同,通過對原有工廠結(jié)構(gòu)的靈活利用,實現(xiàn)了高效的建設(shè)與交付。

 

項目采用了包括液冷、電力模塊、預(yù)制化產(chǎn)品等多種冷卻技術(shù)方案,一期部署10萬張GPU卡,設(shè)計極低的PUE,同時保障了快速、高效的上線節(jié)奏。

 

從外部可以看到,整個改造型數(shù)據(jù)中心預(yù)留了大量的室外構(gòu)筑物空間,用于放置發(fā)電機、電力模塊等附屬設(shè)施,而僅在核心區(qū)域保留了機房。這種設(shè)計思路非常典型地體現(xiàn)了當(dāng)前數(shù)據(jù)中心的規(guī)劃趨勢——無論是在單體容量、建筑形態(tài)還是配套設(shè)施上,都要具備更強的彈性適配能力,以支持更大的容量躍遷和未來演進(jìn)的可能性。

 

大容量規(guī)劃及交付挑戰(zhàn)——星門40萬卡/64000臺GB200的2年交付計劃

另一個典型案例是正在建設(shè)中的星門項目,規(guī)劃部署40萬張卡。這是一個典型的“蝴蝶式”建筑布局,共由八棟建筑組成。建設(shè)節(jié)奏極快:目前是10個月內(nèi)完成兩棟樓的建設(shè)并交付8萬卡的智算能力,而整個40萬卡的部署計劃將在不到兩年時間內(nèi)完成。

 

從容量上看,40萬張卡大致對應(yīng)500兆瓦以上的用電規(guī)模。這個項目選址在德州,很大概率是因為該地區(qū)具備較好的能源條件,包括天然氣發(fā)電和土地資源優(yōu)勢。同時,由于缺乏水資源,該項目采用了干冷器冷卻方案,以適應(yīng)當(dāng)?shù)刭Y源限制。

 

從架構(gòu)角度來看,星門項目是智算的單體最大、網(wǎng)絡(luò)中心極短距離集中式設(shè)計架構(gòu),搭配統(tǒng)一的中控運營管理中心。在早期云計算時代,也曾出現(xiàn)過類似設(shè)計15兆瓦規(guī)模的蝴蝶式數(shù)據(jù)中心。但與過去不同,如今的單體規(guī)模已經(jīng)提升到了50~80兆瓦級別,在具體能源供電、電力系統(tǒng)和制冷系統(tǒng)設(shè)計上有了質(zhì)變。

 

業(yè)務(wù)類型帶來容量規(guī)劃的挑戰(zhàn)

接著看中國之前一直比較火的DeepSeek。參考一些公開渠道的資料來探索其具體規(guī)模。據(jù)其技術(shù)報告披露,在2024年1月份其爆火時的推理模型,僅使用了2048張卡,功率約為2兆瓦。

 

而據(jù)半導(dǎo)體公司究機構(gòu)預(yù)測,DeepSeek若要構(gòu)建完整的模型訓(xùn)練和推理體系,可能最終需要5萬張卡左右,相應(yīng)容量大概為50兆瓦。

 

也有觀點基于AI工具和公開數(shù)據(jù)分析,認(rèn)為其規(guī)模大致在3萬張卡左右。也就是說僅需30~50兆瓦的級別,就可以完成其主要訓(xùn)練和推理工作。這種低成本、高效能的創(chuàng)新建設(shè)模式,與美國動輒數(shù)十萬卡的超大規(guī)模形成了顯著差異。

 

但是這種差異也反映在模型能力的最終表現(xiàn)上,例如高考數(shù)學(xué)試卷,使用OpenAI最新完整版模型可以做到滿分,而使用DeepSeek或阿里的模型計算,分?jǐn)?shù)能達(dá)到120多分或130多分。

 

所以,今天算力發(fā)展的核心驅(qū)動力依然是三要素:數(shù)據(jù)、算力和模型。在模型層面可以通過算法優(yōu)化,在數(shù)據(jù)層面可以通過開源或共享獲得突破,但唯獨在算力平臺層面,依然需要“力大飛磚”——也就是靠真材實料的硬件堆疊來支撐模型的訓(xùn)練與推理。

 

這也直接影響到我們在規(guī)劃設(shè)計過程中的思考方式。即便是在同一個區(qū)域進(jìn)行算力部署,不同客戶在需求容量、節(jié)奏、交付規(guī)模、運營模式等方面也可能差異顯著。如何在更大規(guī)模上實現(xiàn)更強的彈性部署和分批交付,成為我們需要應(yīng)對的新挑戰(zhàn)。

 

彈性功率波動對系統(tǒng)設(shè)計和運營的挑戰(zhàn)

此外,還有一個雖未在當(dāng)下具體發(fā)生,但未來很可能出現(xiàn)的技術(shù)問題:當(dāng)前的數(shù)據(jù)中心在面對一些高功耗、波動性強的AI芯片時,會出現(xiàn)計算時負(fù)載波動問題。例如,GB200在常規(guī)運行時的功率約為130kW,但在滿載或超頻狀態(tài)下,峰值功率可能飆升至180kW。這意味著算力負(fù)載不是持續(xù)穩(wěn)定的,而是具有明顯的峰值沖擊。

 

業(yè)內(nèi)對此已有一定擔(dān)憂。在實踐中,確實已經(jīng)出現(xiàn)了局部超載的情況,部分解決方案是對UPS結(jié)合儲能電池進(jìn)行超配,但這會帶來成本問題。更復(fù)雜的是,在一些大規(guī)模集群集中開啟的場景下,負(fù)載甚至可能直接穿透到市電系統(tǒng),造成更大的電力沖擊。

 

我們也在思考,該如何更合理地應(yīng)對這種問題:是否通過末端的PSU電源優(yōu)化解決?是否引入電容器或飛輪技術(shù)緩解沖擊?還是應(yīng)該從配電系統(tǒng)系統(tǒng)架構(gòu)層面重新設(shè)計,引入中壓儲能或者發(fā)電機的方式,以更好地適應(yīng)這種高波動、高功耗的AI算力設(shè)備運行模式?

 

彈性容量規(guī)劃應(yīng)對——容量調(diào)整對液冷挑戰(zhàn) ?

借用行業(yè)中的一張范例圖,當(dāng)液冷機柜的單機功率從幾十kW提升到幾百kW時,真正需要解決的問題不僅僅在系統(tǒng)級,而是從服務(wù)器內(nèi)部冷板的換熱材料換熱能力開始到末端的冷卻管路液體流量的影響。傳統(tǒng)的單相冷卻正在逐步轉(zhuǎn)向相變流體的使用,這就引出了對芯片層級的液體熱管理、水力設(shè)計、供熱管路等諸多方面的全新要求。

 

我們可以看到一個很典型的變化:過去液冷機柜可能只有2個冷卻接頭,現(xiàn)在已經(jīng)提升到了8個,你可以想象,在一個列級規(guī)模的系統(tǒng)中,整個后端幾乎被冷卻接頭所填滿,背后的根本原因,是機柜功率密度從過去的幾十kW躍升到今天的幾百kW,形成一個高密度、列級甚至整排機柜的液冷系統(tǒng)。在這種新形態(tài)下,行業(yè)內(nèi)對于液冷的設(shè)計標(biāo)準(zhǔn)也隨之發(fā)生了轉(zhuǎn)變。

 

在此前行業(yè)討論液冷技術(shù)規(guī)范時,我常被問到兩個問題,第一,液冷到底在哪個層級上需要做到冗余備份的類似A級別認(rèn)證?第二,為什么液冷一定要做到“機柜級”而不是“機房級”?

 

我的觀點是:“當(dāng)一個液冷機柜被設(shè)計為一個獨立單元,具備可靠性和冗余能力時,可靠性評估的起點是從它的Manifold(分流歧管)開始,而不僅僅應(yīng)該從CDU(冷卻分配單元)起算?!盋DU本身已經(jīng)是一個列級模塊,它的失效影響范圍遠(yuǎn)超單節(jié)點。如果你不把它當(dāng)作“單機柜”來看,甚至不重視每一個接頭連接的可靠性,那么一旦出問題,它的“爆炸半徑”是非常大的,尤其是高密度的GB200或者3000,影響集群規(guī)模巨大。

 

這也說明了一個問題:液冷已經(jīng)從傳統(tǒng)的“運維界面”、“機柜界面”,延伸到了服務(wù)器內(nèi)部每一個U節(jié)點的層級,這對運維的穩(wěn)定性和系統(tǒng)整體的可靠性都提出了全新的挑戰(zhàn)。

 

大規(guī)模智算的解決方案,從研究Stargate(星門)、XAI、國內(nèi)近期的交付來看,過去我們常見的是一個項目包含多個獨立單體、分批交付;而現(xiàn)在,我們正走向更大規(guī)模的單體部署,在建筑設(shè)計上就進(jìn)行預(yù)留,為未來擴展創(chuàng)造條件,并盡可能減少運維中心數(shù)量。這種設(shè)計要求我們在機電系統(tǒng)與IT空間之間留出彈性,同時網(wǎng)絡(luò)架構(gòu)仍然遵循原有定律,也就是說,網(wǎng)絡(luò)架構(gòu)與配電容量一起決定了單體設(shè)計的上限。

 

彈性容量及園區(qū)規(guī)劃應(yīng)對

在實際設(shè)計中,尤其是結(jié)合土建結(jié)構(gòu)和標(biāo)準(zhǔn)建筑單體的條件下,我們往往會采用傳統(tǒng)模式來滿足IT功能區(qū)和機電設(shè)備功能區(qū)。但隨著單體規(guī)模從50兆瓦提升到100兆瓦甚至更高,我們需要對配電、電池、發(fā)電機等系統(tǒng)進(jìn)行重新組合與彈性冗余配置,為建筑空間釋放更大適應(yīng)能力,甚至將部分配電系統(tǒng)向室外延伸。也就是功能區(qū)域具備IT的機電的配比進(jìn)行彈性伸縮的設(shè)計調(diào)整,也可以在容量規(guī)模上結(jié)合產(chǎn)品設(shè)計進(jìn)行產(chǎn)出容量的動態(tài)調(diào)整,以爭取在建筑規(guī)劃面積不變的情況下,通過構(gòu)筑物和建筑空間的調(diào)整,實現(xiàn)需求容量的動態(tài)調(diào)整適配。

 

這也說明,在定制化需求的反向推動下,我們的配電與冷卻系統(tǒng)正逐步走向產(chǎn)品化、模塊化、預(yù)制化,這已經(jīng)成為當(dāng)下大型智算中心建設(shè)中的一個重要趨勢,可以彈性匹配智算中心的方案組合。

 

彈性容量規(guī)劃應(yīng)對——單體區(qū)域彈性布置/機電模塊化

 

彈性功率配電挑戰(zhàn)應(yīng)對——升壓/直流

所以今天我們面臨的挑戰(zhàn),還因為高密度帶來的機電方案的大調(diào)整。

 

舉例來說,當(dāng)單個機柜的供電從幾個千瓦提升到幾十千瓦甚至上百千瓦時,過去長期存在爭議但尚未解決的問題——交流變直流,如今直流開始逐漸成為主流,甚至是首選。

傳統(tǒng)的200V–240V直流供電或者交流220V已經(jīng)難以滿足高功率設(shè)備在線纜傳輸距離和容量密度方面的要求。因此,像英偉達(dá)體系中就已經(jīng)采用了800V直流方案,成為應(yīng)對這一變化的代表。這也直接引發(fā)了一個核心問題:我們需要盡快推進(jìn)直流架構(gòu)的落地。

 

從供電方式來看,傳統(tǒng)模式是“市電 → UPS → 末端配電”,源-線路-荷的產(chǎn)品波動不大,但今天我們正在發(fā)生轉(zhuǎn)變:架構(gòu)變化 “去UPS化”,也就是將原有的低壓UPS系統(tǒng)取消或向中壓轉(zhuǎn)化或者末端PSU強化。這意味著傳統(tǒng)意義上集中部署UPS的架構(gòu)已不再適用,而是變成了中壓級或末端級配電架構(gòu)。原因就是當(dāng)機柜單功率為600KW時,出現(xiàn)了“一臺UPS只對應(yīng)一臺機柜”的極致形態(tài)。

 

目前在不同企業(yè)的實踐中,也出現(xiàn)了兩種不同路徑的演進(jìn)方向:集中式大功率電源模式:如阿里正在推進(jìn)的單體3MW的集中電源方案;行業(yè)也有市電直供 + 末端電源冗余方案,參考OCP方案,將供電集中末端解決”,即將電源控制與切換邏輯移至末端機柜,實現(xiàn)架構(gòu)的高度分化與扁平化。

 

從整個趨勢來看,傳統(tǒng)UPS集中式供配電方案正面臨被重構(gòu)的挑戰(zhàn),而直流化、模塊化、末端化已成為未來高密度智算中心的核心方向之一。

 

另外,當(dāng)末端單機柜功率達(dá)到幾百kV且負(fù)載波動較大時,如何結(jié)合儲能應(yīng)對這種情況成為一個重要課題,目前也在積極探討中,是將傳統(tǒng)的UPS后備電池結(jié)合儲能放大到中壓端還是末端PSU用更短時間的電容電池,也在持續(xù)商討中。

 

傳統(tǒng)的大量UPS加儲能電池用于削峰調(diào)頻目前研究較多。比如前面提到的負(fù)載從130kV彈性波動到180kV時,必然會導(dǎo)致UPS容量超配。傳統(tǒng)的2N架構(gòu)因為負(fù)載率低于50%,這個問題相對容易解決。但如果UPS采用DR或者RR主要依賴單機冗余配置,其過載能力和故障切換就容易讓UPS轉(zhuǎn)旁路甚至最終導(dǎo)致電力穿透市電網(wǎng),整個配電系統(tǒng)架構(gòu)的冗余設(shè)計需要重新考量。

 

“源網(wǎng)荷儲”結(jié)合智算中心的新設(shè)計理念,我一直認(rèn)為網(wǎng)與源是一體的,以前的負(fù)荷是穩(wěn)定的不也容易實現(xiàn)儲能的收益,但是智算的荷載彈性,會改變源網(wǎng)的前端系統(tǒng)的設(shè)計與架構(gòu)。

 

彈性功率對配電和制冷挑戰(zhàn)應(yīng)對

 

彈性功率對制冷挑戰(zhàn)應(yīng)對——風(fēng)液兼容彈性液冷比例

下面我們來談?wù)勱P(guān)于制冷面臨的挑戰(zhàn)。

 

過去我們對液冷的理解往往是比較單一和理想化的,但如今的實際情況已經(jīng)變得更復(fù)雜。在我參與的一個項目中,風(fēng)冷與液冷的負(fù)載比例達(dá)到了 5:6.5,甚至在某些極端情況下接近 5:8.5,需要做兼容彈性設(shè)計。

智算中心在同時需要兼容CPU和GPU供水溫度的場景下,也就是可能一個園區(qū)中兼顧推理與訓(xùn)練的業(yè)務(wù),還可能涵蓋存儲、通用計算等多類CPU業(yè)務(wù)。這意味著,在設(shè)計階段就要考慮到多種需求的協(xié)調(diào)與融合,應(yīng)對不同功率密度智算設(shè)備的冷卻方式和比例的解決方案。

 

因此,在一個項目中,我們常常需要同時配置風(fēng)冷與液冷系統(tǒng),不僅在建筑層面上預(yù)留吊頂和架空地板空間,還要在機柜層面區(qū)分不同的供水溫度。這也促使“風(fēng)液同源”的解決方案成為行業(yè)中非常關(guān)鍵的技術(shù)方向,即在同一區(qū)域內(nèi)實現(xiàn)風(fēng)冷與液冷系統(tǒng)的兼容、協(xié)同布局及設(shè)備預(yù)留,從而提高整體的靈活性與適應(yīng)性。我們一般采用風(fēng)冷液冷一體的風(fēng)墻方案疊加冷板式液冷組合的架構(gòu)方案。但是在單機柜功率為幾百KW時,如何高效解決近端冷卻問題,仍是我們面臨的一大技術(shù)挑戰(zhàn),有待進(jìn)一步探索與優(yōu)化。

 

高密度液冷挑戰(zhàn)應(yīng)對——NV的GTC生態(tài)體系

英偉達(dá)主導(dǎo)的GPU時代,其在一開始就推動了完整的行業(yè)生態(tài)體系建設(shè)。這里想強調(diào)的是,融入英偉達(dá)GTX生態(tài)體系是至關(guān)重要的。因為在GPU大規(guī)模部署的背景下,英偉達(dá)所選擇的架構(gòu)方案,幾乎決定了行業(yè)未來的主流方向。英偉達(dá)在自有架構(gòu)方案中,從Manifold接頭、服務(wù)器托盤、機柜、前端電源模塊、到800V直流電源,都已經(jīng)形成了完整的統(tǒng)一體系。只有真正融入這一生態(tài)體系,才能成為其解決方案供應(yīng)商。

 

高密度液冷的挑戰(zhàn)應(yīng)對——GB300單機柜600KW+

我們來看GB300實物,單機柜液冷配置4根巨大的冷卻水管,傳統(tǒng)的600mm標(biāo)準(zhǔn)機柜框架無法承載,末端機柜需要結(jié)合功率需求重新定制與適配,這其中不僅包括機械結(jié)構(gòu),還包括熱管理、電力供應(yīng)等,GB300是一個完全自己全部解決風(fēng)冷和液冷的完整方案,無需單獨額外考慮風(fēng)冷液冷比。

 

GB200的參考設(shè)計方案中,除了液冷機柜自帶CDU,其風(fēng)冷就已經(jīng)提出了完整的背部風(fēng)墻一體化設(shè)計。如果仍沿用傳統(tǒng)解耦式方案,就需要單獨考慮風(fēng)冷對應(yīng)比例的風(fēng)墻和整合式CDU配置。

 

在當(dāng)前智算背景下,我認(rèn)為整個產(chǎn)業(yè)應(yīng)該從終端出發(fā),由服務(wù)器廠商“反向主導(dǎo)和推動”整個電力、冷卻、網(wǎng)絡(luò)等系統(tǒng)的設(shè)計,推動形成一個統(tǒng)一的行業(yè)架構(gòu)。這樣才能實現(xiàn)真正高效、穩(wěn)定、可規(guī)?;瘡?fù)制的系統(tǒng)解決方案。

 

否則,如果還是各做各的架構(gòu)方案,不匹配主流的智算設(shè)備,很多廠商的產(chǎn)品可能很快就會被淘汰出局,無法成為主流。

 

交付與運營挑戰(zhàn)應(yīng)對

在當(dāng)前的大容量、快速交付需求背景下,為了在保障質(zhì)量的前提下完成部署,預(yù)制化正在成為越來越多項目的重要選擇。

 

近期我和一位同行交流,他打了一個非常直白的比喻:今天的數(shù)據(jù)中心建設(shè),說到底就幾件事——有沒有卡、有沒有能源、能源價格。

 

第一, 有卡就有業(yè)務(wù)。東南亞地區(qū)之所以成為新的智算增長熱點,核心原因就是那兒有卡。

 

第二, 有沒有能力把能源轉(zhuǎn)化為穩(wěn)定的電力供應(yīng)。無論是天然氣、小型核電還是其他形式,只有掌握了能源供應(yīng)到智算中心,才有可能支撐起數(shù)百兆瓦規(guī)模的數(shù)據(jù)中心交付能力。

 

第三, 能源成本高低決定了智算中心聚集的規(guī)模。

 

以此來看,像美國、日本這樣的地區(qū),雖然“有卡”,但“缺能源”,所以要交付一個百兆瓦級別的數(shù)據(jù)中心都面臨巨大挑戰(zhàn),這也推動了他們對“快速交付”和“預(yù)制化”的高度依賴。而如果我們能夠切入這些市場,就會明顯感受到項目機會和商業(yè)價值都非??捎^。

 

反觀國內(nèi),在“內(nèi)卷”環(huán)境下,各方更關(guān)注的是成本控制。由于中國本身基建交付效率非常高,從立項到建設(shè)房屋和機電交付7-11個月都可以完成,所以對預(yù)制化的需求相對較低,這也受到成本、能力邊界、市場競爭激烈程度等因素的影響。

 

插一句題外話,外電成本往往只在“能源有保障”和“卡有供應(yīng)”這兩個前提都滿足后,才成為決策的第三維度。我們發(fā)現(xiàn),真正具備算力芯片資源、能源保障,同時又能獲得低成本外電的區(qū)域,才是今天數(shù)據(jù)中心最優(yōu)先落地的方向,并不是所有“西算區(qū)域”都為此而受益。

 

交付挑戰(zhàn)與系統(tǒng)設(shè)計應(yīng)對

不過,預(yù)制化也并非沒有挑戰(zhàn)。當(dāng)我們從傳統(tǒng)工程定制交付轉(zhuǎn)向模塊化產(chǎn)品組合時,會面臨以下幾個關(guān)鍵問題:

 

供應(yīng)體系復(fù)雜,難以標(biāo)準(zhǔn)化。如果廠商未能形成統(tǒng)一體系,產(chǎn)品之間的兼容性差,就可能導(dǎo)致所提供的解決方案難以成為主流。

 

產(chǎn)品不是自產(chǎn),缺乏完整控制和運維保障。比如水泵、冷機來自預(yù)制化廠商,可能帶來運行維護(hù)、維保責(zé)任不清等問題。

 

認(rèn)證與合規(guī)挑戰(zhàn)突出。在海外交付場景中,預(yù)制化產(chǎn)品可能還需滿足當(dāng)?shù)氐恼J(rèn)證、合規(guī)標(biāo)準(zhǔn),進(jìn)一步增加交付難度。

 

風(fēng)液冷混合方案處于波動期。設(shè)計方案如何適配、模塊產(chǎn)品如何集成、規(guī)劃如何預(yù)留彈性空間,都是目前需要持續(xù)優(yōu)化的問題。

 

因此,我們今天所做的,仍是基于特定客戶需求、特定場景、定制化需求的一套端到端解決方案。從設(shè)計規(guī)劃、模塊交付,到最后的產(chǎn)品化、運營保障,都需要在實踐中不斷思考和迭代。

 

還有一個關(guān)鍵問題是液冷系統(tǒng)在實際交付與運營中的穩(wěn)定性和可靠性。

 

當(dāng)我們在項目中采用風(fēng)液兼容的設(shè)計方案時,風(fēng)冷系統(tǒng)相對容易實現(xiàn)共用,但水冷系統(tǒng)由于需要特殊管路精準(zhǔn)分配到每一個節(jié)點,因此帶來了很多新的挑戰(zhàn)。尤其是當(dāng)每個機柜的功率都達(dá)到幾十千瓦甚至幾百千瓦,并且伴隨頻繁波動時,原來的設(shè)計模型——例如一個模塊或包間只需要10臺空調(diào)——現(xiàn)在在同樣空間內(nèi)可能需要管理上百臺設(shè)備的散熱問題,這就導(dǎo)致水力平衡成為一個核心難點。

 

特別是在高功率密度情況下,從幾十千瓦到幾百千瓦的功率段,如何進(jìn)行水力熱設(shè)計、如何進(jìn)行CDU的選型與分布布置,都成為工程設(shè)計中的關(guān)鍵技術(shù)問題。

 

此外,液冷系統(tǒng)的可控性也正在成為一項重要考量。在現(xiàn)實中,客戶簽署的服務(wù)對象(SOI)已經(jīng)明確將單個機柜視為最小單位,一旦某個機柜功率達(dá)到600kW級別,相當(dāng)于原來60個10kW機柜的負(fù)載聚合在一起。那么在這種密度下,CDU(冷卻分布單元)的設(shè)計就必須具備足夠的冗余與可靠性。過去我們說CDU的Manifold接頭可以做到“N+X”的冗余配置,或者“N+N”,看上去太貴且浪費,但現(xiàn)在我們要思考一個現(xiàn)實問題:一臺GB300的機柜成本可能高達(dá)2000萬美元,那為什么不能在CDU設(shè)計上多投入20萬美元,來保障其運行穩(wěn)定性?

 

如果不提升液冷系統(tǒng)可靠性,一旦一個600kW的機柜因冷卻失效宕機,客戶所面臨的數(shù)據(jù)損失與運維方所承擔(dān)的SLA罰則都將非常嚴(yán)重,遠(yuǎn)遠(yuǎn)高于當(dāng)初省下的那點成本。

 

而在實際項目中,我也看到一些廠商還在討論如何減配CDU、如何降低液冷設(shè)計冗余度,這些做法的后果,可能要等真出運營問題時采取反思設(shè)計。到時候結(jié)果如何,我們只能“拭目以待”了。

 

運營挑戰(zhàn)應(yīng)對

最后我們來談?wù)勥\營階段面臨的幾個核心問題,特別是PUE相關(guān)的挑戰(zhàn)。

 

首先,現(xiàn)在很多頭部客戶在簽約階段,對運營階段的PUE指標(biāo)提出了更高要求,甚至已經(jīng)超過了行業(yè)或者政府的相關(guān)標(biāo)準(zhǔn),也高于當(dāng)前智算基礎(chǔ)設(shè)施的普遍設(shè)計要求。以純風(fēng)冷場景為例,客戶普遍要求PUE要做到1.2到1.25之間。這個指標(biāo)在深圳這樣的高溫高濕地區(qū)其實很難實現(xiàn),但在華東、華北地區(qū),客戶則將其視為基本門檻。因此,在設(shè)計和交付中,我們必須對制冷設(shè)備的供水溫度控制、末端盤管墻的設(shè)計,以及近端冷卻方案的預(yù)留和部署給予更多關(guān)注——這些可能都是滿足PUE要求的剛性前提條件。

 

其次,板冷系統(tǒng)的設(shè)計要求也在不斷提高。以往的PUE標(biāo)準(zhǔn)可能是做到 1.2,但現(xiàn)在逐步向 1.15 靠攏。與此同時,供液溫度到底是設(shè)定在25℃還是35℃? 這取決于GPU殼溫的設(shè)計和散熱能力,也就意味著我們在液冷方案中仍有很多優(yōu)化空間與技術(shù)演進(jìn)的可能性,值得深入探討與推動行業(yè)標(biāo)準(zhǔn)的改變。

 

最后,是用水問題。隨著數(shù)據(jù)中心規(guī)模迅速擴大,單體容量達(dá)到500兆瓦甚至1GW后,水資源逐漸成為真正的瓶頸。原本我們認(rèn)為像華東、華南這樣水資源豐富的地區(qū)不會受限,但一旦園區(qū)規(guī)模提升到GW級別,我們會發(fā)現(xiàn),區(qū)域的自來水廠的供水能力已難以支撐,就像過去我們遇到的區(qū)域變電站容量限制一樣。

 

在這種背景下,“無水方案”(如室外干冷器、閉式冷卻塔)正成為新的技術(shù)選項。而如何在無水條件下依然做到極致PUE優(yōu)化,是今天在制冷架構(gòu)設(shè)計中必須正視的一項重大挑戰(zhàn)。

 

總結(jié)

最后,我來做一個簡單的總結(jié),未來在智算基礎(chǔ)設(shè)施的發(fā)展過程中,有幾個方向非常關(guān)鍵:

 

第一,近端冷卻與液冷彈性比的協(xié)同。隨著冷板液冷逐漸成為主流,如何做好液冷系統(tǒng)與風(fēng)冷近端冷卻的協(xié)同設(shè)計,特別是在高波動負(fù)載場景下實現(xiàn)冷卻系統(tǒng)的彈性調(diào)節(jié),是一項重要課題。

 

第二,“源網(wǎng)荷儲”體系的重新理解。現(xiàn)在“網(wǎng)”已經(jīng)不再是主要瓶頸。真正的核心在“源”——電力源頭的保障能力。不論是光伏、自備燃?xì)怆姀S,還是接入小型核電,未來單體智算中心做到GW級需求時,關(guān)鍵問題是你有沒有穩(wěn)定、可持續(xù)的能源來源。

 

“網(wǎng)”部分可能只是過網(wǎng)費,但“源”的供給能力,才是限制你能否交付的真正障礙。

 

第三,負(fù)載波動對儲能與配電架構(gòu)的影響。“荷”的波動性越來越明顯,也讓我們開始反思——儲能系統(tǒng)(如電池、飛輪)到底應(yīng)該布置在中壓側(cè)還是負(fù)載端?目前行業(yè)仍在探索,我們自己也還沒有完全看清楚這個趨勢,但這會是接下來重點思考的方向。

 

第四,能源依然是核心。這里面有幾個層次:

 

● 能不能拿到能源(可用性);

● 拿到之后能源價格是否穩(wěn)定(成本);

● 能否持續(xù)供應(yīng)(可靠性)。

 

我們看到有些地方在招商階段會承諾電價補貼,但坦率的說,這種補貼在幾百兆瓦級別的數(shù)據(jù)中心面前是不可持續(xù)的。最終你要靠自己的方案解決穩(wěn)定、低價、長期的能源供給。

 

第五,IT機柜設(shè)計可能面臨重構(gòu)。當(dāng)單柜功率從幾十kW走向幾百kW時,原本標(biāo)準(zhǔn)的服務(wù)器機柜設(shè)計將難以為繼,未來機柜形態(tài)可能需要重新定義,包括末端配電方式、冷卻結(jié)構(gòu)、機房布局等,這其中潛藏著重大革新的機會。

 

以上就是我今天的總結(jié)分享。有些問題我們還在摸索,很多結(jié)論也未必已經(jīng)有答案,只是基于我們所經(jīng)歷的項目和行業(yè)探索提出的一些思考。謝謝大家!

相關(guān)推薦