重磅出爐！《Omdia 中國(guó)商用大模型競(jìng)爭(zhēng)力排名報(bào)告》

2024/09/23 作者：與非網(wǎng)編輯

3111

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

要點(diǎn) 中國(guó)是開發(fā)GenAI最為積極的市場(chǎng)。據(jù) Omdia 估算，截至 2024 年 1 月，中國(guó)廠商開發(fā)的基礎(chǔ)模型總數(shù)已超過 230 個(gè)?？蛻艨晒┻x擇的模型種類繁多，能力屬性各不相同。人工智能工程師和企業(yè)常常發(fā)現(xiàn)，要為自己的用例確定最佳基礎(chǔ)模型是一項(xiàng)挑戰(zhàn)。要全面的了解、比較和識(shí)別合適的基礎(chǔ)模型變得非常困難，但是愈加無可避免。

因此，通過這份《中國(guó)商用大模型廠商競(jìng)爭(zhēng)力排名報(bào)告》，Omdia旨在為中國(guó)商業(yè)基礎(chǔ)模型基準(zhǔn)測(cè)試提供一個(gè)全面客觀的方法，幫助企業(yè)用戶了解市場(chǎng)，選擇理想的解決方案和廠商。本排名是最佳廠商之間的競(jìng)爭(zhēng)，所列出的 12 家廠商都是中國(guó)最好的基礎(chǔ)模型開發(fā)商。所有這些廠商都擁有強(qiáng)大的人工智能工程能力，是 GenAI 商業(yè)部署的堅(jiān)實(shí)合作伙伴。

Omdia 主要用兩個(gè)維度來評(píng)測(cè)廠商，即模型能力和執(zhí)行能力。此次評(píng)測(cè)側(cè)重于模型對(duì)一般知識(shí)和特定領(lǐng)域知識(shí)的語言處理能力。本排名中評(píng)估的產(chǎn)品是基礎(chǔ)模型的語言能力水平和知識(shí)深度，以及基于這些基礎(chǔ)模型的相應(yīng)聊天機(jī)器人。

模型能力的評(píng)測(cè)主要借助來自主要研究和獨(dú)立第三方基準(zhǔn)的數(shù)據(jù)，重點(diǎn)關(guān)注基礎(chǔ)模型以準(zhǔn)確、可預(yù)測(cè)和安全的方式執(zhí)行通用任務(wù)和特定領(lǐng)域任務(wù)的能力。

基礎(chǔ)模型能力、一致性和安全性評(píng)估完全基于著名的學(xué)術(shù)研究論文和第三方評(píng)估。這種方法可確保評(píng)估過程不受參與者的偏見和影響：用任務(wù)執(zhí)行能力：主要用CLiB、FoundaBench、Open LLM Leaderboard 2、OpenCompass 、SuperCLUE、LHMKE、AC-EVAL 、C3Bench和 Conceptmath的評(píng)測(cè)結(jié)果。同時(shí)也會(huì)考慮國(guó)際基準(zhǔn)，如 MMLU、HellaSwag 和 LMSYS 等。對(duì)齊：主要用AlignBench的評(píng)測(cè)結(jié)果。

安全性：主要用CHiSafetyBench、CRiskEval、MLLMGuard 和 S-Eval。特定領(lǐng)域任務(wù)執(zhí)行能力和可信度：主要用CFLUE、 SuperCLUE-Fin 、CMB 、CS-Bench 和NewsBench的評(píng)測(cè)結(jié)果，同時(shí)也會(huì)考慮國(guó)際基準(zhǔn)，如 HumanEval 和 MBPP。多樣性：?指基礎(chǔ)模型除上述評(píng)測(cè)外，還能覆蓋多種能力。

執(zhí)行力的評(píng)測(cè)主要基于Omdia自身定性的研究來評(píng)測(cè)以下七點(diǎn)：

創(chuàng)新力：指廠商在支持 GenAI 開發(fā)和部署的基礎(chǔ)設(shè)施方面的創(chuàng)新，如芯片、云基礎(chǔ)設(shè)施、開發(fā)平臺(tái)以及智算中心。
戰(zhàn)略和路線圖：指廠商針對(duì)特定垂直需求、目標(biāo)受眾以及與合作伙伴的需求而開發(fā)的創(chuàng)新。
上市戰(zhàn)略：?指廠商進(jìn)入市場(chǎng)的渠道以及對(duì)基礎(chǔ)模型的銷售和營(yíng)銷支持。
垂直行業(yè)覆蓋率：指基礎(chǔ)模型所能服務(wù)的垂直行業(yè)。
客戶數(shù)量：指基礎(chǔ)模型的客戶總數(shù)，尤其是大型國(guó)內(nèi)客戶和國(guó)際客戶。
實(shí)施服務(wù)：指廠商幫助企業(yè)實(shí)施基于基礎(chǔ)模型的定制應(yīng)用程序的能力。
合作伙伴和生態(tài)系統(tǒng)：指廠商在本地市場(chǎng)和全球渠道分銷合作伙伴及系統(tǒng)集成商的多樣性，以及對(duì)全球開源生態(tài)系統(tǒng)的貢獻(xiàn)。

市場(chǎng)領(lǐng)先者必須擁有頂級(jí)的通用和特定領(lǐng)域任務(wù)性能。阿里、百度和智譜這些基礎(chǔ)模型在能力、一致性和安全性方面都獲得了高分。其中，阿里在通用任務(wù)執(zhí)行能力上有著顯著的能力，領(lǐng)先于其他領(lǐng)導(dǎo)者。相比之下，百度在某些特定領(lǐng)域任務(wù)執(zhí)行能力有著卓越表現(xiàn)，智譜則是在基礎(chǔ)知識(shí)能力的評(píng)測(cè)表現(xiàn)優(yōu)異。

市場(chǎng)挑戰(zhàn)者主要包括中國(guó)的云計(jì)算和人工智能巨頭，它們擁有強(qiáng)大的基礎(chǔ)設(shè)施和通用人工智能能力。它們并不缺乏開發(fā)強(qiáng)大基礎(chǔ)模型的資源。相反，它們將重點(diǎn)放在選定的用例或?qū)Ｓ薪鉀Q方案上。其中最明顯的例子就是騰訊。騰訊依托自身最新發(fā)布的混合專家模型的架構(gòu)，將大模型結(jié)合到其用戶廣泛的軟件應(yīng)用中。

《Omdia中國(guó)大模型廠商競(jìng)爭(zhēng)力排名報(bào)告》代表著 Omdia 對(duì)目前百模大戰(zhàn)的一個(gè)主觀判斷。阿里、百度和智譜是目前的領(lǐng)先者，而騰訊和商湯等在背后虎視眈眈。云大廠依仗其云基礎(chǔ)設(shè)施的優(yōu)勢(shì)在大模型時(shí)代大放光彩。其他廠商想在市場(chǎng)分一杯羹，就得依賴更顯著得差異化和對(duì)細(xì)分賽道的深耕。

版權(quán)聲明：與非網(wǎng)經(jīng)原作者授權(quán)轉(zhuǎn)載，版權(quán)屬于原作者。文章觀點(diǎn)僅代表作者本人，不代表與非網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有侵權(quán)或者其他問題，請(qǐng)聯(lián)系本站作侵刪。侵權(quán)投訴

人工客服
（售后/吐槽/合作/交友）