• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

智算下半場生死戰(zhàn):DeepSeek開源正在淘汰哪些“偽AI玩家”?

03/03 09:55
832
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

我前兩天去國內(nèi)一家TOP前幾的公有云單位交流,

我們提前預(yù)約了對方的一個(gè)部門領(lǐng)導(dǎo),但是到了之后,對方草草聊了幾句,就不好意思說道,要去開會(huì)。

這個(gè)會(huì)是集團(tuán)的技術(shù)老大召集開會(huì),這個(gè)不能缺席。

會(huì)議的議題就是DeepSeek開源之后對一些方向?qū)Σ摺?/p>

并且,從春節(jié)后,這種會(huì)議,就沒有斷過,都在后DeepSeek之后,思考云基礎(chǔ)設(shè)施如何在智能領(lǐng)域的下一步發(fā)展的發(fā)展規(guī)劃。

最后,對方的一個(gè)下屬接待了我們。

后來交流得知,從DeepSeek出來之后,他們云上空閑的算力都被其他廠商買走了。

也就是說,現(xiàn)在囤積算力也是一個(gè)生意。

有人還在糾結(jié),算力基礎(chǔ)設(shè)施能不能盈利的事情。

別人已經(jīng)實(shí)實(shí)在在感受到DeepSeek帶來的真金白銀了。

在我看來,智算中心可以這樣分類:

前DeepSeek時(shí)代:在DeepSeek出來之前,很多算力基礎(chǔ)設(shè)施有沒有人用都是疑問。

后DeepSeek時(shí)代:DeepSeek出來之后,推理算力已經(jīng)成為了緊俏的資源。

傳統(tǒng)的云服務(wù)廠商,當(dāng)年囤積不少算力機(jī)器。

這是因?yàn)樵茝S都有一些超前預(yù)測(forecast),肯定會(huì)超前部署一些帶GPU的智算服務(wù)器

這就和十幾年前,超前建設(shè)城市主干道一樣,雙向12車道,但是沒有什么車。

超前建設(shè)的困境是,這么多智算服務(wù)器,但是上面的應(yīng)用其實(shí)是不多的。

和馬路修完,車不多,一個(gè)道理。

但是,建設(shè)智算服務(wù)集群和修馬路本質(zhì)上一樣,都是基礎(chǔ)設(shè)施(infrastructure)。

所以智算集群就被叫做(AI infrastructure或者 AI infra)。

基礎(chǔ)設(shè)施就需要有前瞻性。

對于這些資金雄厚(幾百億營收甚至更多),重資產(chǎn)(每年都要新增幾十億的服務(wù)器),重硬輕軟的基礎(chǔ)設(shè)施廠商來說。

搞了半輩子的云計(jì)算的IaaS(基礎(chǔ)設(shè)置即服務(wù)),PaaS平臺(tái)即服務(wù)),SaaS(軟件即服務(wù));

到了智算時(shí)代,跟不上步伐了。

因?yàn)橥娣ㄗ兂闪薈hatgpt這種,玩法是MaaS(Model as a Service),大模型即服務(wù),通過將機(jī)器學(xué)習(xí)模型作為服務(wù)提供給用戶。

GPU買了,智算服務(wù)器裝好了,智算中心搭建了。

模型卻沒有了。

整好,有人雪中送炭。

DeepSeek模型開源了。

算力,咱有的是。

MaaS,這個(gè)也能閉環(huán)了。

對于傳統(tǒng)的公有云廠商來說,不能說只是雪中送炭,而是在AI時(shí)代拿到了一個(gè)入場券。

DeepSeek出來后,推理的需求一下子就起來了。

智算中心買的這些GPU算力服務(wù)器,不論是插了N家的卡,還是國產(chǎn)的GPU卡,一下子都找到了應(yīng)用的地方。

DeepSeek大模型的推理,需求一下子起來了。

DeepSeek開源,讓傳統(tǒng)云計(jì)算廠商一下子找到了智算時(shí)代的入口。

同樣的道理,還有前幾年建設(shè)的各種智算中心。

這些算力或多或少都會(huì)有更多的需求,而不是算力閑置。

DeepSeek開源把云計(jì)算廠商或者基礎(chǔ)設(shè)施提供廠商“扶上馬”。

但是,最近有人質(zhì)疑這種模式的可持續(xù)性。

有人質(zhì)疑,把算力轉(zhuǎn)換成deepseek的服務(wù)(MaaS),到底賺不賺錢?

還有人計(jì)算,說DeepSeek月虧4億。

有人則說虧不了這么多。

反正各有各的道理。

賺錢的也不能大張旗鼓的說自己賺錢了。

賠錢賺吆喝的也不能說,自己為什么免費(fèi)?

無非為了獲客,引流,培育市場等互聯(lián)網(wǎng)“羊毛出在狗身上”常用手段。

這周開始,DeepSeek密集的發(fā)布了一周的技術(shù)開源。

變相的通過技術(shù)手段回應(yīng)了這個(gè)質(zhì)疑。

MaaS到底賺不賺錢?

理論上,只要更少投入(買機(jī)器的錢,電費(fèi),運(yùn)營)可以做到更多的token產(chǎn)出,賣token的錢大于投入的錢,這個(gè)生意就是成立的。

但是問題就出在這里。

智算基礎(chǔ)設(shè)施的優(yōu)化和模型息息相關(guān)。

有人優(yōu)化的好,就是百倍的產(chǎn)出,自然是賺錢的。

有人優(yōu)化的差,賣的token還賺不回電費(fèi)來,自然是賠錢的。

而這個(gè)優(yōu)化,就是指的智算基礎(chǔ)設(shè)施(AI infra)的優(yōu)化。

本質(zhì)上,這種在云計(jì)算時(shí)代也是這樣算計(jì)就是降低TCO。

在云計(jì)算時(shí)代,對云計(jì)算的計(jì)算節(jié)點(diǎn),網(wǎng)絡(luò)節(jié)點(diǎn),存儲(chǔ)節(jié)點(diǎn)進(jìn)行優(yōu)化,,不過科技樹是點(diǎn)在虛擬化/裸金屬,負(fù)載均衡/OVS,分布式存儲(chǔ)等方面。

不過在智算時(shí)代,計(jì)算,通信,存儲(chǔ)的優(yōu)化和云計(jì)算完全不同。

這些知識(shí)只能從頭再來。

精耕細(xì)作,增加產(chǎn)出。

只不過,在智算時(shí)代,這些手段還都處在konw-how的階段。

這個(gè)星期開始,DeepSeek把這些konw-how逐漸的發(fā)布出來。

這些開源的技術(shù),本質(zhì)上,就是手把手的告訴基礎(chǔ)設(shè)施服務(wù)商,也就是如何優(yōu)化智算基礎(chǔ)設(shè)施。

讓這些智算中心能夠單位成本有更多產(chǎn)出。就是同一塊地,能夠多打糧食,自然就賺得多,同樣一塊地,種出的糧食少了,自然賠錢,甚至餓死。

那么DeepSeek是如何優(yōu)化底層基礎(chǔ)設(shè)施?

我們來看,開源周每天發(fā)布的技術(shù)分別是:

    第一天:FlashMLA第二天:DeepEP第三天:DeepGEMM(FP8矩陣乘法庫)第四天:DualPipe、EPLB、profile-data第五天:3FS、Smallpond

我們按照我的理解,把這些優(yōu)化手段,分為三類。

分別是計(jì)算,通信,和存儲(chǔ)(和云計(jì)算時(shí)代保持一致)。

一、計(jì)算:算力加速與硬件優(yōu)化

FlashMLA:針對英偉達(dá)Hopper架構(gòu)GPU優(yōu)化的解碼加速技術(shù),通過動(dòng)態(tài)內(nèi)存調(diào)度和并行計(jì)算優(yōu)化,顯著提升大模型推理速度,在H800 GPU上實(shí)現(xiàn)3000GB/s內(nèi)存帶寬和580TFLOPS計(jì)算性能,支持變長序列處理,顯存占用降低45%。

DeepGEMM:基于FP8(8位浮點(diǎn))的通用矩陣乘法庫,支持混合專家模型(MoE)訓(xùn)練與推理加速,在Hopper GPU上實(shí)現(xiàn)1350 TFLOPs計(jì)算性能,代碼僅300行,小批量場景加速比達(dá)2.7倍結(jié)合即時(shí)編譯(JIT)與CUDA核心優(yōu)化,平衡速度與精度,減少顯存占用。

二、通信:智算集群通信優(yōu)化與并行計(jì)算

DeepEP:首個(gè)面向MoE模型的開源專家并行通信庫,支持低精度(如FP8)數(shù)據(jù)傳輸,優(yōu)化多GPU間通信效率。

DualPipe(雙向流水線并行算法):解決傳統(tǒng)流水線并行中的等待時(shí)間問題,通過雙向調(diào)度實(shí)現(xiàn)計(jì)算與通信重疊,提升訓(xùn)練效率。

EPLB(專家并行負(fù)載均衡器):? ? 動(dòng)態(tài)分配專家模型任務(wù)至空閑GPU,避免資源閑置。支持冗余專家與動(dòng)態(tài)調(diào)整高負(fù)載專家。

三、存儲(chǔ):智算集群存儲(chǔ)與數(shù)據(jù)處理

3FS(高性能分布式文件系統(tǒng)):解決AI訓(xùn)練中TB/PB級數(shù)據(jù)的存儲(chǔ)與訪問瓶頸,支持SSD+RDMA硬件優(yōu)化,實(shí)現(xiàn)超高吞吐(6.6 TiB/s)與低延遲。解耦計(jì)算與存儲(chǔ)資源,支持強(qiáng)一致性,適用于模型檢查點(diǎn)保存、向量搜索等場景。

Smallpond:基于3FS的數(shù)據(jù)處理框架,簡化數(shù)據(jù)清洗、轉(zhuǎn)換與加載(ETL),支持大規(guī)模AI訓(xùn)練與實(shí)時(shí)分析。

DeepSeek的開源,利好云計(jì)算廠商。

特別是在智算時(shí)代囤積了大量算力的廠商。

這些智算基礎(chǔ)設(shè)施優(yōu)化之后,可以發(fā)揮出,十倍甚至百倍的算力輸出(token)。

著實(shí)是“扶上馬再送一程?!?/p>

對傳統(tǒng)云計(jì)算廠商來說,一下子從云計(jì)算服務(wù)商跨越到智算服務(wù)商的時(shí)代。

大家可以關(guān)注下這些廠商25年的營收,或多或少,都有不少的收獲。

而今天DeepSeek公布模型推理成本,采用大規(guī)模跨節(jié)點(diǎn)專家并行(EP),計(jì)算通信重疊、GPU?分配均衡的計(jì)算負(fù)載、通信負(fù)載,實(shí)現(xiàn)H800 GPU集群545%的成本利潤率。

對于DeepSeek來說,屬于收官之戰(zhàn)。

這場技術(shù)突圍證明:當(dāng)算法優(yōu)化突破臨界點(diǎn),算力基礎(chǔ)設(shè)施即可從"資源消耗型"躍遷為"價(jià)值創(chuàng)造型"。

也就說,優(yōu)化的好,從智算基礎(chǔ)設(shè)施(AI infra)到智算服務(wù)(MaaS)是能賺錢的。

而優(yōu)化的不好,AI infra就是賠錢的。

賺不到錢的,正確的姿勢應(yīng)該是技術(shù)上反思,優(yōu)化,提升。

畢竟不會(huì)就學(xué),沒啥丟人的。

真正丟人是在無能狂怒的罵街。

與其“菜”還愛罵街,不如好好研究github上代碼。

畢竟,有句老話說得好啊。

talk is cheap?,show me the code。

就像內(nèi)燃機(jī)誕生之初,99%的能量曾以熱能形式散失。

當(dāng)蒸汽機(jī)突破熱效率極限,工業(yè)革命席卷全球;

技術(shù)史上的每一次躍遷,都在證明同一個(gè)真理:工具的進(jìn)化,本質(zhì)是能量利用效率的革命。

今天的AI infra優(yōu)化,何嘗不是一場面向能量效率的革命。

如果在DeepSeek開源之后,基礎(chǔ)設(shè)施廠商還不能把AI infra優(yōu)化到可以正向輸出token能夠贏利的境地,那這種“AI偽玩家”就只有被淘汰下場。

AI重構(gòu)生產(chǎn)力,AI infra則淘汰低效者。

人工智能不養(yǎng)“閑人”。

引用:

https://github.com/deepseek-ai/FlashMLA

https://github.com/deepseek-ai/DeepEP

https://github.com/deepseek-ai/DeepGEMM

https://github.com/deepseek-ai/DualPipe

https://github.com/deepseek-ai/eplb

https://github.com/deepseek-ai/3FS

我是歪睿老哥,一個(gè)芯片架構(gòu)師,如果你覺得本文還不錯(cuò),歡迎點(diǎn)贊,在看,分享。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄