• 正文
    • 1. Qwen3 相比 Qwen 歷史版本的主要升級(jí)
    • 2. Qwen3 與 DeepSeek 的技術(shù)對(duì)比
    • 3. DeepSeek 的技術(shù)優(yōu)勢(shì)
    • 4. 總結(jié)
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

收藏:Qwen3技術(shù)演進(jìn)與DeepSeek對(duì)比

5小時(shí)前
201
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

Qwen3 是阿里巴巴通義千問團(tuán)隊(duì)在 2025 年 4 月發(fā)布的最新大模型,相比 Qwen 歷史版本(如 Qwen2.5、Qwen1.5)以及 DeepSeek 的 R1 和即將發(fā)布的 R2 模型,在架構(gòu)、性能、成本效率等方面均有顯著提升。

本文所有資料都已上傳至“智能計(jì)算芯知識(shí)”星球。如“《92+份GPU芯片技術(shù)及白皮書合集》”,“《60+份AI Agent技術(shù)報(bào)告合集》”,“北京大學(xué):10+份DeepSeek技術(shù)實(shí)踐報(bào)告合集”,“《清華大學(xué):DeepSeek報(bào)告19部曲合集》”,“浙江大學(xué):DeepSeek技術(shù)20篇(合集)”,“《310+份DeepSeek技術(shù)報(bào)告合集》”,“《100+份AI芯片技術(shù)修煉合集》”,“800+份重磅ChatGPT專業(yè)報(bào)告”,加入星球獲取嚴(yán)選精華技術(shù)報(bào)告,內(nèi)容持續(xù)更新...

1. Qwen3 相比 Qwen 歷史版本的主要升級(jí)

(1) 架構(gòu)創(chuàng)新:混合推理 + MoE 設(shè)計(jì)

混合推理架構(gòu)(快思考 + 慢思考)
Qwen3 首次引入“快思考”和“慢思考”雙模式,可根據(jù)任務(wù)復(fù)雜度動(dòng)態(tài)調(diào)整計(jì)算資源:

快思考(非推理模式):適用于簡(jiǎn)單問答、指令執(zhí)行,響應(yīng)延遲低至毫秒級(jí)。

慢思考(推理模式):針對(duì)數(shù)學(xué)、代碼生成等復(fù)雜任務(wù),啟用多步推理鏈(Chain of Thought),提升準(zhǔn)確性。

用戶可設(shè)置“思考預(yù)算”(最大推理 tokens 數(shù)),平衡成本與質(zhì)量。

MoE(混合專家)架構(gòu)大幅提升效率

Qwen3-235B-A22B 總參數(shù) 2350 億,但僅激活 220 億(約 10%),相比傳統(tǒng)稠密模型(如 Qwen2.5-72B)計(jì)算成本降低 90%。

(2) 訓(xùn)練數(shù)據(jù)與多語(yǔ)言能力

訓(xùn)練數(shù)據(jù)翻倍(36 萬(wàn)億 token,Qwen2.5 僅 18 萬(wàn)億),涵蓋 STEM、編程、多語(yǔ)言文檔及合成數(shù)據(jù)。

支持 119 種語(yǔ)言,覆蓋全球 90% 以上人口,尤其優(yōu)化了小語(yǔ)種能力。

(3) 性能提升

數(shù)學(xué)能力:AIME25 奧數(shù)測(cè)評(píng) 81.5 分,刷新開源紀(jì)錄。

代碼能力:LiveCodeBench 評(píng)測(cè)突破 70 分,超越 Grok 3。

Agent 能力:BFCL 評(píng)測(cè) 70.8 分,優(yōu)于 OpenAI o1 和 Gemini 2.5 Pro。

(4) 部署成本大幅降低

僅需 4 張 H20 顯卡?即可部署 Qwen3-235B-A22B(成本約 50 萬(wàn)),而 DeepSeek-R1 671B 需 12 張 A100(成本 200 萬(wàn))。

(5)關(guān)鍵性能提升

能力維度 Qwen3表現(xiàn) 對(duì)比Qwen2.5提升
數(shù)學(xué)推理 AIME25奧數(shù)測(cè)評(píng)81.5分 +22%
代碼生成 LiveCodeBench 70分 +35%
Agent能力 BFCL評(píng)測(cè)70.8分(超越Gemini 2.5 Pro) +40%
長(zhǎng)文本 128K上下文,關(guān)鍵信息召回率98% 上下文利用率提升50%

(6)部署成本革命

硬件需求大幅降低

Qwen3-235B-A22B僅需4張H20顯卡(成本約50萬(wàn))。

對(duì)比:同規(guī)模稠密模型需12張A100(成本200萬(wàn)+)。

開源策略

全系列Apache 2.0開源(含MoE架構(gòu)細(xì)節(jié)),衍生模型已超10萬(wàn)。

提供量化版本(INT4/INT8),可在消費(fèi)級(jí)GPU(如RTX 4090)運(yùn)行。


2. Qwen3 與 DeepSeek 的技術(shù)對(duì)比

(1) 架構(gòu)對(duì)比

維度 Qwen3 DeepSeek-R1 DeepSeek-R2(預(yù)計(jì))
架構(gòu) MoE + 混合推理(動(dòng)態(tài)激活 10%) 傳統(tǒng)稠密架構(gòu)(全參數(shù)激活) Hybrid MoE 3.0(激活 6.5%)
參數(shù)規(guī)模 235B(激活 22B) 671B(全激活) 1.2T(激活 78B)
推理成本 4 張 H20(成本 50 萬(wàn)) 12 張 A100(成本 200 萬(wàn)) 預(yù)計(jì)比 Qwen3 更低
多模態(tài) 文本+Agent 強(qiáng)化 純文本 支持文本+圖像輸入

(2) 性能對(duì)比

數(shù)學(xué)推理:Qwen3(AIME25 81.5 分) > DeepSeek-R1(未公布)。

代碼生成:Qwen3(LiveCodeBench 70 分) > DeepSeek-R1。

Agent 能力:Qwen3(BFCL 70.8 分) > DeepSeek-R1(56.9 分)。

(3) 開源生態(tài)

Qwen3:全系列 Apache 2.0 開源,衍生模型超 10 萬(wàn),超越 Llama。

DeepSeek:部分閉源,生態(tài)開放性較低。


3. DeepSeek 的技術(shù)優(yōu)勢(shì)

盡管 Qwen3 在多個(gè)方面領(lǐng)先,DeepSeek 仍有獨(dú)特優(yōu)勢(shì):

萬(wàn)億參數(shù)規(guī)模(R2 預(yù)計(jì) 1.2T),可能帶來更強(qiáng)的長(zhǎng)文本理解能力。

更極致的稀疏激活(6.5% vs Qwen3 的 10%),進(jìn)一步降低推理成本。

多模態(tài)支持(R2 新增圖像輸入),彌補(bǔ) R1 的短板。

專業(yè)領(lǐng)域優(yōu)化(醫(yī)療、工業(yè)質(zhì)檢等),在特定任務(wù)上超越專家組。


4. 總結(jié)

Qwen3 優(yōu)勢(shì)

混合推理架構(gòu)(靈活平衡效率與深度)
MoE 超高效率(激活參數(shù)僅 10%,成本極低)
開源生態(tài)最強(qiáng)(全系列 Apache 2.0,衍生模型超 10 萬(wàn))
多語(yǔ)言 & Agent 能力突出(119 種語(yǔ)言,BFCL 70.8 分)

DeepSeek 優(yōu)勢(shì)(R2 預(yù)期)

萬(wàn)億參數(shù) + 超稀疏激活(可能帶來更強(qiáng)推理能力)
多模態(tài)支持(文本+圖像輸入)
專業(yè)領(lǐng)域優(yōu)化(醫(yī)療、工業(yè)等垂直場(chǎng)景)

未來競(jìng)爭(zhēng)焦點(diǎn):Qwen3?已搶占“高效 MoE + 混合推理”高地,DeepSeek R2 需在萬(wàn)億參數(shù)效率多模態(tài)能力上突破才能反超。

本號(hào)資料全部上傳至知識(shí)星球,更多內(nèi)容請(qǐng)登錄智能計(jì)算芯知識(shí)(知識(shí)星球)星球下載全部資料。

阿里巴巴

阿里巴巴

阿里巴巴集團(tuán)經(jīng)營(yíng)多項(xiàng)業(yè)務(wù),另外也從關(guān)聯(lián)公司的業(yè)務(wù)和服務(wù)中取得經(jīng)營(yíng)商業(yè)生態(tài)系統(tǒng)上的支援。業(yè)務(wù)和關(guān)聯(lián)公司的業(yè)務(wù)包括:淘寶網(wǎng)、天貓、聚劃算、全球速賣通、阿里巴巴國(guó)際交易市場(chǎng)、1688、阿里媽媽、阿里云、螞蟻金服、菜鳥網(wǎng)絡(luò)等。

阿里巴巴集團(tuán)經(jīng)營(yíng)多項(xiàng)業(yè)務(wù),另外也從關(guān)聯(lián)公司的業(yè)務(wù)和服務(wù)中取得經(jīng)營(yíng)商業(yè)生態(tài)系統(tǒng)上的支援。業(yè)務(wù)和關(guān)聯(lián)公司的業(yè)務(wù)包括:淘寶網(wǎng)、天貓、聚劃算、全球速賣通、阿里巴巴國(guó)際交易市場(chǎng)、1688、阿里媽媽、阿里云、螞蟻金服、菜鳥網(wǎng)絡(luò)等。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄