作者丨包永剛,編輯丨王亞峰
不同于春節(jié)假期剛結(jié)束時(shí)近20家AI芯片公司忙著宣布完成適配DeepSeek蒸餾模型的熱鬧景象,半個(gè)月后宣布完成適配滿血版DeepSeek模型的寥寥數(shù)家,這也真實(shí)反映出了國產(chǎn)AI芯片的真實(shí)力。
“只要廠家之前已經(jīng)支持的大模型的訓(xùn)練推理,那么適配DeepSeek就沒有任何難度?!盇I芯片軟件工程師梓豪說,“我們公司的應(yīng)用工程師(AE)就可以完成DeepSeek蒸餾模型的適配?!边@足以解釋為什么有芯片公司可以用數(shù)小時(shí)時(shí)間就完成DeepSeek蒸餾模型的適配,但對(duì)于一直致力于做大芯片的AI芯片公司來說,適配滿血版DeepSeek更能體現(xiàn)其價(jià)值。
目前,華為、寒武紀(jì)、摩爾線程以及昆侖芯都有公開信息表示其完成滿血版DeepSeek模型的適配。更多國產(chǎn)AI芯片公司適配滿血版大模型進(jìn)展歡迎添加作者微信BENSONEIT了解。“即便是現(xiàn)在已經(jīng)宣布適配滿血版DeepSeek的芯片公司,其性能都不太好?!?/strong>AI芯片資深工程師杰克說,“從技術(shù)上判斷,此前已經(jīng)將大模型跑起來的公司,比如燧原、壁仞、天數(shù)智芯適配滿血版DeepSeek也只是時(shí)間問題,之前沒有部署過大模型的公司適配滿血版DeepSeek可能‘遙遙無期’。”
那么到底適配DeepSeek蒸餾模型和滿血版DeepSeek模型會(huì)成為AI芯片公司的分水嶺?為什么有人說國內(nèi)AI芯片公司的人不懂AI?DeepSeek的爆火至少能撐起一家國產(chǎn)AI芯片公司的上市?
01、適配蒸餾版DeepSeek模型只是開胃小菜
半個(gè)月前芯片公司鋪天蓋地的適配DeepSeek的新聞里,有公司明確表達(dá)了適配的是蒸餾模型,也有公司只說適配了DeepSeek,但適配蒸餾模型和滿血版模型之間存在著巨大的差別。滿血版模型指的是與DeepSeek官網(wǎng)性能一致的V3和R1的全量參數(shù)模型,其參數(shù)高達(dá)671B,一般需要多臺(tái)高性能GPU服務(wù)器并行才能流暢運(yùn)行推理服務(wù)。
蒸餾版DeepSeek模型是利用DeepSeek-R1生成的數(shù)據(jù)對(duì)其他模型進(jìn)行微調(diào),參數(shù)從幾B到幾十B都有,比如DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B,這些蒸餾模型的效果差于滿血版,但更易于部署?!拔乙欢日J(rèn)為適配蒸餾版DeepSeek模型沒有太大價(jià)值,許多工程師也都更傾向于滿血版DeepSeek,但我現(xiàn)在的想法發(fā)生了轉(zhuǎn)變?!?/p>
有二十多年芯片行業(yè)經(jīng)驗(yàn)的柏林說,“蒸餾版模型能滿足普通用戶的聊天需求,對(duì)于普及AI的意義非常大。”杰克也表示,雖然蒸餾模型的準(zhǔn)確度不如滿血版模型,但蒸餾版模型能讓端側(cè)AI的能力上一個(gè)臺(tái)階,端側(cè)資源受限,有了DeepSeek的蒸餾模型之后,比如原來只能部署7B模型的場(chǎng)景,現(xiàn)在能達(dá)到14B模型的效果。國產(chǎn)AI芯片適配蒸餾版DeepSeek模型也難度不大。
無論是使用GPGPU架構(gòu)還是專用ASIC架構(gòu)對(duì)AI芯片公司,都迅速完成了對(duì)DeepSeek的適配。“GPT火了之后所有公司都想辦法支持大模型,DeepSeek和之前的大模型沒有本質(zhì)的不同,有此前適配大模型的工作,適配蒸餾版DeepSeek不是難題?!辫骱辣硎?。“CUDA兼容的GPGPU適配起來確實(shí)會(huì)更容易,但只要給ASIC更多時(shí)間做到極致,性能可以超過GPU?!苯芸苏J(rèn)為。
從長(zhǎng)期看,無論什么架構(gòu)的芯片,如果只是支持幾個(gè)有限的模型,總能在這個(gè)架構(gòu)上找到最優(yōu)的解決方案。DeepSeek的火爆,主流模型就是DeepSeek和LLMA等少數(shù)幾個(gè),從這個(gè)角度看,對(duì)AI芯片公司來說算是好事。對(duì)于采用國產(chǎn)AI芯片的智算中心來說,DeepSeek的火爆同樣是重大利好?!癉eepSeek火爆之后我們想用一家國產(chǎn)AI芯片公司的卡適配。”國產(chǎn)智算中心從業(yè)者博遠(yuǎn)說,“但現(xiàn)實(shí)的問題是,如果適配DeepSeek A100的性能是100分,這家國產(chǎn)卡跑起來只有幾分的性能,使勁優(yōu)化也只有A100十幾分的性能。”
DeepSeek的火爆到底如何影響智算中心發(fā)展,添加作者微信BENSONEIT互通有無。既然從普及AI和適配的角度,蒸餾版DeepSeek就有巨大的價(jià)值,那為什么還要適配滿血版DeepSeek?“只有部署了滿血版DeepSeek模型,才能得到蒸餾版模型,我認(rèn)為這是部署滿血版DeepSeek模型的重要原因?!苯芸吮硎尽?/p>
02、國內(nèi)領(lǐng)先AI芯片最快月底能適配「好」?jié)M血版模型
但是想要部署參數(shù)高達(dá)671B滿血版DeepSeek-R1模型,即便是Int8精度模型的大小也高達(dá)671G,以單卡96G HBM計(jì)算,單機(jī)8卡總共768GB也只是勉強(qiáng)夠部署滿血版DeepSeek,只要模型精度比Int8更高,單臺(tái)服務(wù)器就無法部署滿血版DeepSeek模型。
此時(shí)就需要多機(jī)互聯(lián),這正是國產(chǎn)AI芯片公司仍未很好解決地問題。“Nvidia有NV Link,國產(chǎn)芯片沒有多機(jī)互聯(lián)的解決方案會(huì)選擇InfiniBand(IB)或者高速以太網(wǎng)RoCE實(shí)現(xiàn)互聯(lián),這些方案的通信的延遲很大,這就極大程度會(huì)影響最終部署的效果?!苯芸苏f,“多卡和多機(jī)互聯(lián)是國產(chǎn)芯片適配滿血版DeepSeek的第一個(gè)難點(diǎn),如果之前沒有解決通信問題,想做起來很難,距離成功適配滿血版DeepSeek可能遙遙無期?!辫骱勒J(rèn)為在多機(jī)互聯(lián)方面,摩爾線程和沐曦有一定的優(yōu)勢(shì)。
另一個(gè)難點(diǎn)是DeepSeek的MoE混合專家系統(tǒng),MoE是多一個(gè)router(路由模塊)的計(jì)算,它會(huì)將token路由至合適的專家權(quán)重去做計(jì)算,這個(gè)路由是動(dòng)態(tài)的,這和此前的Transformer大模型的部署不一樣,這也是一個(gè)全新的挑戰(zhàn)。
對(duì)于所有國產(chǎn)AI大芯片而言,還有一個(gè)硬傷就是不原生支持FP8數(shù)據(jù)類型,DeepSeek模型采用了 FP8 混合精度訓(xùn)練,全球領(lǐng)先的AI芯片公司英偉達(dá)從H100開始,AMD MI325X都原生支持FP8?!安辉С諪P8不意味著就不能部署滿血版DeepSeek,只是會(huì)帶來效率問題,比如用FP16來部署,就需要2倍的存儲(chǔ)?!苯芸吮硎荆@就意味著需要更多卡,問題又到了多卡多機(jī)互聯(lián)。
要注意,即便是2024年推出的新一代國產(chǎn)AI卡,也沒有支持FP8。柏林認(rèn)為,最新的國產(chǎn)AI芯片不支持FP8、FP4這類非IEEE定義的數(shù)據(jù)類型,說明企業(yè)內(nèi)部沒有前沿的研究指導(dǎo)這些公司的設(shè)計(jì)。并且英偉達(dá)2022年推出的H100就已經(jīng)支持了FP8,已經(jīng)有人做出產(chǎn)品,就算照著“抄”也不難了,這體現(xiàn)了國內(nèi)許多做AI芯片的人并不懂AI。
即便解決了技術(shù)難題可以部署滿血版DeepSeek,從可用到好用還有一段很長(zhǎng)的距離。杰克就深有感觸,此前適配大模型的時(shí)候,杰克所在的公司跨機(jī)通信也解決了,但是要實(shí)現(xiàn)性能的提升難度很大。這也是目前國產(chǎn)芯片公司適配滿血版頭疼的問題。
雷峰網(wǎng)了解到,目前國內(nèi)領(lǐng)先的AI芯片公司以4臺(tái)服務(wù)器(32卡,F(xiàn)P16數(shù)據(jù)類型),或者2臺(tái)服務(wù)器(16卡,Int8數(shù)據(jù)類型)適配滿血版DeepSeek的效果也只達(dá)到了10tokens/s,其目標(biāo)是在本月底前能夠達(dá)到25tokens/s,性能大概是英偉達(dá)H100的25%。另有消息稱,國內(nèi)上市AI芯片公司在智算中心已經(jīng)達(dá)到了適配滿血版DeepSeek 25tokens/s的性能。
從用戶的角度,使用滿血版DeepSeek要有比較好的使用體驗(yàn)有兩個(gè)非常直觀的指標(biāo),一個(gè)是首字延遲,另一個(gè)就是每秒吞吐量。大致而言,首字延遲在1-1.4秒是大部分用戶能夠接受的延遲,而每秒生成20token能滿足正常閱讀的需求。這樣說來,即便是國內(nèi)領(lǐng)先的公司,最快也要到本月底達(dá)到讓用戶相對(duì)滿意的使用體驗(yàn)。至于其他AI芯片公司,雷峰網(wǎng)了解到,在上市輔導(dǎo)流程里的AI芯片公司有兩家適配滿血版DeepSeek的速度在10 tokens/s及以下。
AI大芯片公司的張偉判斷,未來一個(gè)月適配不好滿血版DeepSeek的AI公司可能有一半。柏林認(rèn)為,未來一個(gè)季度國產(chǎn)AI芯片都會(huì)陸續(xù)適配滿血版DeepSeek。“其他已經(jīng)有成功部署大模型經(jīng)驗(yàn)的芯片公司適配滿血版DeepSeek只是時(shí)間問題。”杰克說,“這些公司里好幾家都處于上市輔導(dǎo)階段,我認(rèn)為誰能更快、更好支持好滿血版DeepSeek,我認(rèn)為會(huì)大幅增加他們上市的概率,因?yàn)楹芏鄼C(jī)構(gòu)和公司都在積極部署滿血版DeepSeek,有利于AI芯片公司做出真實(shí)的業(yè)績(jī),支撐其上市?!辈贿^兩位芯片投資人都對(duì)雷峰網(wǎng)表示,A股的成功上市的因素比較復(fù)雜,能夠支持好滿血版DeepSeek確實(shí)是實(shí)力的體現(xiàn),但對(duì)于最終成功上市很難說有直接利好。毋庸置疑的是,DeepSeek對(duì)于國內(nèi)芯片、智算中心、AI應(yīng)用都是巨大利好,我們已經(jīng)處在AI變革前夜。關(guān)于AI算力的更多挑戰(zhàn),歡迎添加作者微信BENSONEIT討論。
注,文中梓豪、杰克 、柏林、博遠(yuǎn)、張偉均為化名。