• 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

重磅出爐!《Omdia 中國(guó)商用大模型競(jìng)爭(zhēng)力排名報(bào)告》

2024/09/23
3111
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

要點(diǎn) 中國(guó)是開發(fā)GenAI最為積極的市場(chǎng)。據(jù) Omdia 估算,截至 2024 年 1 月,中國(guó)廠商開發(fā)的基礎(chǔ)模型總數(shù)已超過 230 個(gè)??蛻艨晒┻x擇的模型種類繁多,能力屬性各不相同。人工智能工程師和企業(yè)常常發(fā)現(xiàn),要為自己的用例確定最佳基礎(chǔ)模型是一項(xiàng)挑戰(zhàn)。要全面的了解、比較和識(shí)別合適的基礎(chǔ)模型變得非常困難,但是愈加無可避免。

因此,通過這份《中國(guó)商用大模型廠商競(jìng)爭(zhēng)力排名報(bào)告》,Omdia旨在為中國(guó)商業(yè)基礎(chǔ)模型基準(zhǔn)測(cè)試提供一個(gè)全面客觀的方法,幫助企業(yè)用戶了解市場(chǎng),選擇理想的解決方案和廠商。本排名是最佳廠商之間的競(jìng)爭(zhēng),所列出的 12 家廠商都是中國(guó)最好的基礎(chǔ)模型開發(fā)商。所有這些廠商都擁有強(qiáng)大的人工智能工程能力,是 GenAI 商業(yè)部署的堅(jiān)實(shí)合作伙伴。

Omdia 主要用兩個(gè)維度來評(píng)測(cè)廠商,即模型能力和執(zhí)行能力。此次評(píng)測(cè)側(cè)重于模型對(duì)一般知識(shí)和特定領(lǐng)域知識(shí)的語言處理能力。本排名中評(píng)估的產(chǎn)品是基礎(chǔ)模型的語言能力水平和知識(shí)深度,以及基于這些基礎(chǔ)模型的相應(yīng)聊天機(jī)器人。

模型能力的評(píng)測(cè)主要借助來自主要研究和獨(dú)立第三方基準(zhǔn)的數(shù)據(jù),重點(diǎn)關(guān)注基礎(chǔ)模型以準(zhǔn)確、可預(yù)測(cè)和安全的方式執(zhí)行通用任務(wù)和特定領(lǐng)域任務(wù)的能力。

基礎(chǔ)模型能力、一致性和安全性評(píng)估完全基于著名的學(xué)術(shù)研究論文和第三方評(píng)估。這種方法可確保評(píng)估過程不受參與者的偏見和影響:用任務(wù)執(zhí)行能力:主要用CLiB、FoundaBench、Open LLM Leaderboard 2、OpenCompass 、SuperCLUE、LHMKE、AC-EVAL 、C3Bench和 Conceptmath的評(píng)測(cè)結(jié)果。同時(shí)也會(huì)考慮國(guó)際基準(zhǔn),如 MMLU、HellaSwag 和 LMSYS 等。對(duì)齊:主要用AlignBench的評(píng)測(cè)結(jié)果。

安全性:主要用CHiSafetyBench、CRiskEval、MLLMGuard 和 S-Eval。特定領(lǐng)域任務(wù)執(zhí)行能力和可信度:主要用CFLUE、 SuperCLUE-Fin 、CMB 、CS-Bench 和NewsBench的評(píng)測(cè)結(jié)果,同時(shí)也會(huì)考慮國(guó)際基準(zhǔn),如 HumanEval 和 MBPP。多樣性:?指基礎(chǔ)模型除上述評(píng)測(cè)外,還能覆蓋多種能力。

執(zhí)行力的評(píng)測(cè)主要基于Omdia自身定性的研究來評(píng)測(cè)以下七點(diǎn):

  • 創(chuàng)新力:指廠商在支持 GenAI 開發(fā)和部署的基礎(chǔ)設(shè)施方面的創(chuàng)新,如芯片、云基礎(chǔ)設(shè)施、開發(fā)平臺(tái)以及智算中心。
  • 戰(zhàn)略和路線圖:指廠商針對(duì)特定垂直需求、目標(biāo)受眾以及與合作伙伴的需求而開發(fā)的創(chuàng)新。
  • 上市戰(zhàn)略:?指廠商進(jìn)入市場(chǎng)的渠道以及對(duì)基礎(chǔ)模型的銷售和營(yíng)銷支持。
  • 垂直行業(yè)覆蓋率:指基礎(chǔ)模型所能服務(wù)的垂直行業(yè)。
  • 客戶數(shù)量:指基礎(chǔ)模型的客戶總數(shù),尤其是大型國(guó)內(nèi)客戶和國(guó)際客戶。
  • 實(shí)施服務(wù):指廠商幫助企業(yè)實(shí)施基于基礎(chǔ)模型的定制應(yīng)用程序的能力。
  • 合作伙伴和生態(tài)系統(tǒng):指廠商在本地市場(chǎng)和全球渠道分銷合作伙伴及系統(tǒng)集成商的多樣性,以及對(duì)全球開源生態(tài)系統(tǒng)的貢獻(xiàn)。

市場(chǎng)領(lǐng)先者必須擁有頂級(jí)的通用和特定領(lǐng)域任務(wù)性能。阿里、百度和智譜這些基礎(chǔ)模型在能力、一致性和安全性方面都獲得了高分。其中,阿里在通用任務(wù)執(zhí)行能力上有著顯著的能力,領(lǐng)先于其他領(lǐng)導(dǎo)者。相比之下,百度在某些特定領(lǐng)域任務(wù)執(zhí)行能力有著卓越表現(xiàn),智譜則是在基礎(chǔ)知識(shí)能力的評(píng)測(cè)表現(xiàn)優(yōu)異。

市場(chǎng)挑戰(zhàn)者主要包括中國(guó)的云計(jì)算和人工智能巨頭,它們擁有強(qiáng)大的基礎(chǔ)設(shè)施和通用人工智能能力。它們并不缺乏開發(fā)強(qiáng)大基礎(chǔ)模型的資源。相反,它們將重點(diǎn)放在選定的用例或?qū)S薪鉀Q方案上。其中最明顯的例子就是騰訊。騰訊依托自身最新發(fā)布的混合專家模型的架構(gòu),將大模型結(jié)合到其用戶廣泛的軟件應(yīng)用中。

《Omdia中國(guó)大模型廠商競(jìng)爭(zhēng)力排名報(bào)告》代表著 Omdia 對(duì)目前百模大戰(zhàn)的一個(gè)主觀判斷。阿里、百度和智譜是目前的領(lǐng)先者,而騰訊和商湯等在背后虎視眈眈。云大廠依仗其云基礎(chǔ)設(shè)施的優(yōu)勢(shì)在大模型時(shí)代大放光彩。其他廠商想在市場(chǎng)分一杯羹,就得依賴更顯著得差異化和對(duì)細(xì)分賽道的深耕。

相關(guān)推薦