成人av影视在线,9久精品久久综合久久超碰1,成人无码性交在线观看

作者丨包永剛，編輯丨王亞峰

不同于春節(jié)假期剛結(jié)束時(shí)近20家AI芯片公司忙著宣布完成適配DeepSeek蒸餾模型的熱鬧景象，半個(gè)月后宣布完成適配滿血版DeepSeek模型的寥寥數(shù)家，這也真實(shí)反映出了國產(chǎn)AI芯片的真實(shí)力。

“只要廠家之前已經(jīng)支持的大模型的訓(xùn)練推理，那么適配DeepSeek就沒有任何難度?！盇I芯片軟件工程師梓豪說，“我們公司的應(yīng)用工程師（AE）就可以完成DeepSeek蒸餾模型的適配?！边@足以解釋為什么有芯片公司可以用數(shù)小時(shí)時(shí)間就完成DeepSeek蒸餾模型的適配，但對(duì)于一直致力于做大芯片的AI芯片公司來說，適配滿血版DeepSeek更能體現(xiàn)其價(jià)值。

目前，華為、寒武紀(jì)、摩爾線程以及昆侖芯都有公開信息表示其完成滿血版DeepSeek模型的適配。更多國產(chǎn)AI芯片公司適配滿血版大模型進(jìn)展歡迎添加作者微信BENSONEIT了解。“即便是現(xiàn)在已經(jīng)宣布適配滿血版DeepSeek的芯片公司，其性能都不太好?！?/strong>AI芯片資深工程師杰克說，“從技術(shù)上判斷，此前已經(jīng)將大模型跑起來的公司，比如燧原、壁仞、天數(shù)智芯適配滿血版DeepSeek也只是時(shí)間問題，之前沒有部署過大模型的公司適配滿血版DeepSeek可能‘遙遙無期’。”

那么到底適配DeepSeek蒸餾模型和滿血版DeepSeek模型會(huì)成為AI芯片公司的分水嶺？為什么有人說國內(nèi)AI芯片公司的人不懂AI？DeepSeek的爆火至少能撐起一家國產(chǎn)AI芯片公司的上市？

01、適配蒸餾版DeepSeek模型只是開胃小菜

半個(gè)月前芯片公司鋪天蓋地的適配DeepSeek的新聞里，有公司明確表達(dá)了適配的是蒸餾模型，也有公司只說適配了DeepSeek，但適配蒸餾模型和滿血版模型之間存在著巨大的差別。滿血版模型指的是與DeepSeek官網(wǎng)性能一致的V3和R1的全量參數(shù)模型，其參數(shù)高達(dá)671B，一般需要多臺(tái)高性能GPU服務(wù)器并行才能流暢運(yùn)行推理服務(wù)。

蒸餾版DeepSeek模型是利用DeepSeek-R1生成的數(shù)據(jù)對(duì)其他模型進(jìn)行微調(diào)，參數(shù)從幾B到幾十B都有，比如DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B，這些蒸餾模型的效果差于滿血版，但更易于部署?！拔乙欢日J(rèn)為適配蒸餾版DeepSeek模型沒有太大價(jià)值，許多工程師也都更傾向于滿血版DeepSeek，但我現(xiàn)在的想法發(fā)生了轉(zhuǎn)變?！?/p>
有二十多年芯片行業(yè)經(jīng)驗(yàn)的柏林說，“蒸餾版模型能滿足普通用戶的聊天需求，對(duì)于普及AI的意義非常大。”杰克也表示，雖然蒸餾模型的準(zhǔn)確度不如滿血版模型，但蒸餾版模型能讓端側(cè)AI的能力上一個(gè)臺(tái)階，端側(cè)資源受限，有了DeepSeek的蒸餾模型之后，比如原來只能部署7B模型的場(chǎng)景，現(xiàn)在能達(dá)到14B模型的效果。國產(chǎn)AI芯片適配蒸餾版DeepSeek模型也難度不大。

無論是使用GPGPU架構(gòu)還是專用ASIC架構(gòu)對(duì)AI芯片公司，都迅速完成了對(duì)DeepSeek的適配。“GPT火了之后所有公司都想辦法支持大模型，DeepSeek和之前的大模型沒有本質(zhì)的不同，有此前適配大模型的工作，適配蒸餾版DeepSeek不是難題?！辫骱辣硎?。“CUDA兼容的GPGPU適配起來確實(shí)會(huì)更容易，但只要給ASIC更多時(shí)間做到極致，性能可以超過GPU?！苯芸苏J(rèn)為。

從長(zhǎng)期看，無論什么架構(gòu)的芯片，如果只是支持幾個(gè)有限的模型，總能在這個(gè)架構(gòu)上找到最優(yōu)的解決方案。DeepSeek的火爆，主流模型就是DeepSeek和LLMA等少數(shù)幾個(gè)，從這個(gè)角度看，對(duì)AI芯片公司來說算是好事。對(duì)于采用國產(chǎn)AI芯片的智算中心來說，DeepSeek的火爆同樣是重大利好?！癉eepSeek火爆之后我們想用一家國產(chǎn)AI芯片公司的卡適配。”國產(chǎn)智算中心從業(yè)者博遠(yuǎn)說，“但現(xiàn)實(shí)的問題是，如果適配DeepSeek A100的性能是100分，這家國產(chǎn)卡跑起來只有幾分的性能，使勁優(yōu)化也只有A100十幾分的性能。”

DeepSeek的火爆到底如何影響智算中心發(fā)展，添加作者微信BENSONEIT互通有無。既然從普及AI和適配的角度，蒸餾版DeepSeek就有巨大的價(jià)值，那為什么還要適配滿血版DeepSeek？“只有部署了滿血版DeepSeek模型，才能得到蒸餾版模型，我認(rèn)為這是部署滿血版DeepSeek模型的重要原因?！苯芸吮硎尽?/p>
02、國內(nèi)領(lǐng)先AI芯片最快月底能適配「好」?jié)M血版模型

但是想要部署參數(shù)高達(dá)671B滿血版DeepSeek-R1模型，即便是Int8精度模型的大小也高達(dá)671G，以單卡96G HBM計(jì)算，單機(jī)8卡總共768GB也只是勉強(qiáng)夠部署滿血版DeepSeek，只要模型精度比Int8更高，單臺(tái)服務(wù)器就無法部署滿血版DeepSeek模型。

此時(shí)就需要多機(jī)互聯(lián)，這正是國產(chǎn)AI芯片公司仍未很好解決地問題。“Nvidia有NV Link，國產(chǎn)芯片沒有多機(jī)互聯(lián)的解決方案會(huì)選擇InfiniBand（IB）或者高速以太網(wǎng)RoCE實(shí)現(xiàn)互聯(lián)，這些方案的通信的延遲很大，這就極大程度會(huì)影響最終部署的效果?！苯芸苏f，“多卡和多機(jī)互聯(lián)是國產(chǎn)芯片適配滿血版DeepSeek的第一個(gè)難點(diǎn)，如果之前沒有解決通信問題，想做起來很難，距離成功適配滿血版DeepSeek可能遙遙無期?！辫骱勒J(rèn)為在多機(jī)互聯(lián)方面，摩爾線程和沐曦有一定的優(yōu)勢(shì)。

另一個(gè)難點(diǎn)是DeepSeek的MoE混合專家系統(tǒng)，MoE是多一個(gè)router（路由模塊）的計(jì)算，它會(huì)將token路由至合適的專家權(quán)重去做計(jì)算，這個(gè)路由是動(dòng)態(tài)的，這和此前的Transformer大模型的部署不一樣，這也是一個(gè)全新的挑戰(zhàn)。

對(duì)于所有國產(chǎn)AI大芯片而言，還有一個(gè)硬傷就是不原生支持FP8數(shù)據(jù)類型，DeepSeek模型采用了 FP8 混合精度訓(xùn)練，全球領(lǐng)先的AI芯片公司英偉達(dá)從H100開始，AMD MI325X都原生支持FP8?！安辉С諪P8不意味著就不能部署滿血版DeepSeek，只是會(huì)帶來效率問題，比如用FP16來部署，就需要2倍的存儲(chǔ)?！苯芸吮硎荆@就意味著需要更多卡，問題又到了多卡多機(jī)互聯(lián)。

要注意，即便是2024年推出的新一代國產(chǎn)AI卡，也沒有支持FP8。柏林認(rèn)為，最新的國產(chǎn)AI芯片不支持FP8、FP4這類非IEEE定義的數(shù)據(jù)類型，說明企業(yè)內(nèi)部沒有前沿的研究指導(dǎo)這些公司的設(shè)計(jì)。并且英偉達(dá)2022年推出的H100就已經(jīng)支持了FP8，已經(jīng)有人做出產(chǎn)品，就算照著“抄”也不難了，這體現(xiàn)了國內(nèi)許多做AI芯片的人并不懂AI。

即便解決了技術(shù)難題可以部署滿血版DeepSeek，從可用到好用還有一段很長(zhǎng)的距離。杰克就深有感觸，此前適配大模型的時(shí)候，杰克所在的公司跨機(jī)通信也解決了，但是要實(shí)現(xiàn)性能的提升難度很大。這也是目前國產(chǎn)芯片公司適配滿血版頭疼的問題。

雷峰網(wǎng)了解到，目前國內(nèi)領(lǐng)先的AI芯片公司以4臺(tái)服務(wù)器（32卡，F(xiàn)P16數(shù)據(jù)類型），或者2臺(tái)服務(wù)器（16卡，Int8數(shù)據(jù)類型）適配滿血版DeepSeek的效果也只達(dá)到了10tokens/s，其目標(biāo)是在本月底前能夠達(dá)到25tokens/s，性能大概是英偉達(dá)H100的25%。另有消息稱，國內(nèi)上市AI芯片公司在智算中心已經(jīng)達(dá)到了適配滿血版DeepSeek 25tokens/s的性能。

從用戶的角度，使用滿血版DeepSeek要有比較好的使用體驗(yàn)有兩個(gè)非常直觀的指標(biāo)，一個(gè)是首字延遲，另一個(gè)就是每秒吞吐量。大致而言，首字延遲在1-1.4秒是大部分用戶能夠接受的延遲，而每秒生成20token能滿足正常閱讀的需求。這樣說來，即便是國內(nèi)領(lǐng)先的公司，最快也要到本月底達(dá)到讓用戶相對(duì)滿意的使用體驗(yàn)。至于其他AI芯片公司，雷峰網(wǎng)了解到，在上市輔導(dǎo)流程里的AI芯片公司有兩家適配滿血版DeepSeek的速度在10 tokens/s及以下。

AI大芯片公司的張偉判斷，未來一個(gè)月適配不好滿血版DeepSeek的AI公司可能有一半。柏林認(rèn)為，未來一個(gè)季度國產(chǎn)AI芯片都會(huì)陸續(xù)適配滿血版DeepSeek。“其他已經(jīng)有成功部署大模型經(jīng)驗(yàn)的芯片公司適配滿血版DeepSeek只是時(shí)間問題。”杰克說，“這些公司里好幾家都處于上市輔導(dǎo)階段，我認(rèn)為誰能更快、更好支持好滿血版DeepSeek，我認(rèn)為會(huì)大幅增加他們上市的概率，因?yàn)楹芏鄼C(jī)構(gòu)和公司都在積極部署滿血版DeepSeek，有利于AI芯片公司做出真實(shí)的業(yè)績(jī)，支撐其上市?！辈贿^兩位芯片投資人都對(duì)雷峰網(wǎng)表示，A股的成功上市的因素比較復(fù)雜，能夠支持好滿血版DeepSeek確實(shí)是實(shí)力的體現(xiàn)，但對(duì)于最終成功上市很難說有直接利好。毋庸置疑的是，DeepSeek對(duì)于國內(nèi)芯片、智算中心、AI應(yīng)用都是巨大利好，我們已經(jīng)處在AI變革前夜。關(guān)于AI算力的更多挑戰(zhàn)，歡迎添加作者微信BENSONEIT討論。

注，文中梓豪、杰克、柏林、博遠(yuǎn)、張偉均為化名。