金磊 發(fā)自 凹非寺,量子位 | 公眾號(hào) QbitAI
中國(guó)何時(shí)會(huì)有一個(gè)大模型,能以極強(qiáng)的泛化能力,創(chuàng)建各種智能體、成為人類真正的助手?
在各大科技公司卷了半年的生成式AI熱潮趨于冷靜期的當(dāng)下,這是一個(gè)極其值得思考的問(wèn)題。
很多人會(huì)說(shuō),目前可能只有被稱為業(yè)界標(biāo)桿的GPT-4才能勝任,甚至對(duì)它加以“唯一”這樣的頭銜。
而與此同時(shí),著眼于國(guó)內(nèi),即使這半年來(lái)各個(gè)大模型玩家爭(zhēng)先恐后搶著落地,但“需要兩到三年才能追趕GPT-4”的聲音也是甚上塵囂。
然而就在最近,一個(gè)名為InternLM-123B的國(guó)產(chǎn)預(yù)訓(xùn)練大語(yǔ)言模型,似乎將這種差距感極大地給拉近了一些。
因?yàn)樵谝粓?chǎng)頂尖大模型“同臺(tái)競(jìng)技”中,它的表現(xiàn)實(shí)屬有些亮眼:
? 12項(xiàng)成績(jī)排名第一。
? 綜合實(shí)力全球第二,部分成績(jī)超越GPT-4。
? 絕大部分性能超越ChatGPT和LLaMa-2-70B。
據(jù)了解,這個(gè)評(píng)測(cè)是在全球51個(gè)知名評(píng)測(cè)集(包括MMLU、AGIEval、ARC、CEval、Race、GSM8K等)、共計(jì)30萬(wàn)道問(wèn)題集合上測(cè)試所得到的結(jié)果。
而細(xì)看評(píng)測(cè)內(nèi)容,不難發(fā)現(xiàn)在所有的閱讀理解、絕大部分推理和常識(shí)問(wèn)答方面,InternLM-123B拿到了絕對(duì)的風(fēng)頭。
那么這個(gè)國(guó)產(chǎn)大模型到底是什么來(lái)頭?
不賣關(guān)子,它正是由商湯聯(lián)合上海AI實(shí)驗(yàn)室等多家國(guó)內(nèi)頂尖科研機(jī)構(gòu)發(fā)布的最新大語(yǔ)言模型。
但其實(shí)要是追溯一下這個(gè)大模型,不難發(fā)現(xiàn)在2個(gè)月前(6月份),當(dāng)時(shí)參數(shù)量為1040億的InternLM便已經(jīng)解鎖了“首個(gè)綜合能力超越GPT-3.5-turbo的基模型”的成就,成為當(dāng)時(shí)國(guó)內(nèi)首家在多項(xiàng)權(quán)威評(píng)測(cè)集上超越ChatGPT水平的基模型。
不僅如此,在近日商湯所披露的中期業(yè)績(jī)報(bào)告中,更是將如此生成式AI技術(shù),落地所帶來(lái)的“成績(jī)”曝了出來(lái):僅半年時(shí)間,生成式AI相關(guān)收入暴漲670.4%!
如此技術(shù),如此成績(jī),那么不免讓人發(fā)出疑問(wèn):
會(huì)是中國(guó)第一個(gè)達(dá)到GPT4水平的大模型嗎?
若想趕超GPT-4,單是在技術(shù)上達(dá)到或超越它就并非是一件易事。
畢竟即使是人才、資金、算力都兼?zhèn)涞墓雀韬蚆eta至今都未能達(dá)到它的水平。
而且超強(qiáng)的算力、高質(zhì)量的數(shù)據(jù)、正確的訓(xùn)練方法等等,都是一環(huán)扣一環(huán),直接會(huì)影響大模型性能的好壞。
有人會(huì)說(shuō),為什么非要做到GPT-4水平呢?用Llama 2開(kāi)源模型不香嗎?
那是因?yàn)?,如果要讓GPT-4驅(qū)動(dòng)類似于AutoGPT那樣的智能體,打造“工具調(diào)用”的可用境界,就必須要依賴強(qiáng)大的基座模型。
在“工具調(diào)用”這件事情上,強(qiáng)如GPT-4也只能做到80%的準(zhǔn)確率,Llama的準(zhǔn)確率只有40%。
△數(shù)據(jù)來(lái)源:《On the Tool Manipulation Capability of Open-source Large Language Models》
再如落地方式上,經(jīng)久不斷的開(kāi)源閉源之爭(zhēng),亦是抉擇的一個(gè)難點(diǎn)。
因此,我們不妨從技術(shù)實(shí)力、落地應(yīng)用和戰(zhàn)略布局等方面,來(lái)看下商湯是否是一個(gè)值得被期待的“潛力股”。
一看技術(shù)實(shí)力
若是用一句話來(lái)概括商湯在技術(shù)上的打法,那便是“日日新大模型體系+SenseCore大裝置”。
二者并非是簡(jiǎn)單的做加法那般疊加,而是之間有著深度融合的那種。
至于其技術(shù)實(shí)力效果,我們從大模型的迭代速度便可窺知一二。
早在今年四月,商湯便發(fā)布日日新大模型體系,成為國(guó)內(nèi)第一批發(fā)布大模型的玩家之一;在國(guó)內(nèi)大語(yǔ)言模型之戰(zhàn)最白熱化階段,一口氣將“生成式AI產(chǎn)品族”和盤托出——
商量(SenseChat)、秒畫(SenseMirage)、如影(SenseAvatar)、瓊宇(SenseSpace)和格物(SenseThings)。
它們分別對(duì)應(yīng)的是自然語(yǔ)言交互、AI文生圖、數(shù)字人、3D大場(chǎng)景重建、3D小物體生成這五個(gè)主流的生成式AI應(yīng)用。
時(shí)隔僅僅兩個(gè)月(今年6月),商湯再次聯(lián)合上海人工智能實(shí)驗(yàn)室發(fā)布InternLM-104B版本,并且當(dāng)時(shí)在三個(gè)全球權(quán)威測(cè)評(píng)基準(zhǔn)中(MMLU、AGIEval、C-Eval)的表現(xiàn)就均已超越ChatGPT。
不僅如此,在大模型的“玩法”上,商湯也是國(guó)內(nèi)眾多玩家里最早引入“工具調(diào)用”的選手之一。
例如知識(shí)庫(kù)掛載,實(shí)現(xiàn)了無(wú)需訓(xùn)練,便可快速融合知識(shí)生成;搭配企業(yè)知識(shí)庫(kù)可以快速解決相關(guān)領(lǐng)域問(wèn)題。
再如InternLM-Chat-7B版本,也是在這種“玩法”之下,成為了第一個(gè)具有代碼解釋能力的開(kāi)源對(duì)話模型。
能夠根據(jù)需要靈活調(diào)用Python解釋器等外部工具,在解決復(fù)雜數(shù)學(xué)計(jì)算等任務(wù)上的能力顯著提升;此外,該模型還可通過(guò)搜索引擎獲取實(shí)時(shí)信息,提供具有時(shí)效性的回答。
并且從第三方對(duì)于大模型掌握工具能力的評(píng)估結(jié)果來(lái)看,InternLM-Chat-7B也是領(lǐng)先于主流“選手”。
在此之后,商湯大語(yǔ)言模型的發(fā)展,也就來(lái)到了我們最開(kāi)始所提到的InternLM-123B,是僅次于GPT-4,綜合實(shí)力位居全球第二的水平。
所以現(xiàn)在把發(fā)展路徑中的幾個(gè)重要迭代時(shí)間節(jié)點(diǎn)拎出來(lái)就是:四月→六月→七月→八月。
不得不說(shuō),快,著實(shí)是快。
在與商湯聯(lián)合創(chuàng)始人兼大裝置首席科學(xué)家林達(dá)華交流過(guò)程中,我們了解到如此迭代速度的背后還有一個(gè)“殺手锏”——數(shù)據(jù)處理。
這里所指的并非只是數(shù)據(jù)的總量,商湯更側(cè)重的是足夠強(qiáng)、高吞吐量的數(shù)據(jù)清洗能力。正如林達(dá)華所述:
一個(gè)性能強(qiáng)大的大模型,訓(xùn)練數(shù)據(jù)不僅規(guī)模要大,質(zhì)量更要高;而且大模型的價(jià)值觀和安全性也是依賴于此。
數(shù)據(jù)清洗的過(guò)程,猶如調(diào)制配方的實(shí)驗(yàn),需要不斷試錯(cuò)、不斷重復(fù),甚至從頭再來(lái)。這個(gè)過(guò)程是每家訓(xùn)練大模型的公司都無(wú)法避免的過(guò)程,沒(méi)有捷徑可走。
OpenAI在無(wú)數(shù)場(chǎng)合都介紹過(guò)GPT4訓(xùn)練的經(jīng)驗(yàn),但從未公開(kāi)過(guò)數(shù)據(jù)清洗的經(jīng)驗(yàn),這可謂是訓(xùn)練大模型的頂級(jí)機(jī)密。
商湯在數(shù)據(jù)清洗的過(guò)程中投入了上千塊GPU的算力,并建立起大量系統(tǒng)化、工程化的途徑來(lái)進(jìn)行數(shù)據(jù)配方的試錯(cuò),可以迅速發(fā)現(xiàn)大數(shù)據(jù)庫(kù)中的有效數(shù)據(jù)再到小參數(shù)模型上進(jìn)行驗(yàn)證。
從4月到8月,商湯花費(fèi)了非常大的力氣做數(shù)據(jù)清洗,過(guò)程中專注于補(bǔ)充和構(gòu)建有多步驟的推理語(yǔ)料,形成一套非常高效的閉環(huán)進(jìn)行模型的訓(xùn)練,使得模型的推理能力得到了大幅提升。
目前商湯每月能夠產(chǎn)出約2萬(wàn)億token的高質(zhì)量數(shù)據(jù),預(yù)計(jì)年底高質(zhì)量數(shù)據(jù)儲(chǔ)備將突破10萬(wàn)億token,足以支持更加強(qiáng)大的基模型的訓(xùn)練。
通過(guò)數(shù)據(jù)清洗,商湯在中文語(yǔ)料的儲(chǔ)備方面達(dá)到了一個(gè)相當(dāng)高的水平,是業(yè)內(nèi)領(lǐng)先的能力,因此在知識(shí)理解和推理方面都有非常優(yōu)異的表現(xiàn)。
而如此迅猛的迭代速度和高質(zhì)量數(shù)據(jù)清洗,定然是離不開(kāi)大算力的加持,也就是商湯技術(shù)版圖中另一個(gè)關(guān)鍵——SenseCore大裝置。
早在2022年1月,商湯便交付使用了總投資高達(dá)56億元的人工智能計(jì)算中心(AIDC),而且是“出道”即成為亞洲最大的AI超算中心之一。
一年前它的算力就已經(jīng)高達(dá)了2500 Petaflops,可以輕松應(yīng)對(duì)萬(wàn)億參數(shù)的大模型;而時(shí)隔僅1年,這個(gè)數(shù)值便翻了一倍多,達(dá)到了6000 Petaflops。
有強(qiáng)大的算力,有高質(zhì)量數(shù)據(jù),加之商湯對(duì)于“玩轉(zhuǎn)”大模型多年來(lái)沉淀的know-how,也就不難理解為何能擁有如此迅猛的迭代速度了。
二看落地應(yīng)用
高質(zhì)量的落地速度,是另一個(gè)關(guān)鍵點(diǎn)。
這也是目前趨于冷靜的AIGC市場(chǎng)之下,各個(gè)大模型玩家所面對(duì)的骨感且實(shí)實(shí)在在的問(wèn)題。
商湯可以說(shuō)在這一點(diǎn)上提交了一份生成式AI相關(guān)收入暴漲670.4%的高分作業(yè)。
這個(gè)數(shù)據(jù)的亮相其實(shí)也并不意外,因?yàn)樯虦诖饲暗幕顒?dòng)中也早已對(duì)此有所披露。
例如結(jié)合商量2.0和秒畫3.0的能力,商湯在移動(dòng)端給客戶帶來(lái)了多種交互方面的“解法”。
針對(duì)信息獲取的問(wèn)答交互、生活場(chǎng)景的知識(shí)交互、語(yǔ)言和圖像生成的內(nèi)容交互等等,正因?yàn)樯虦拇竽P蛽碛休p量化版本,所以可以輕松在移動(dòng)端上部署。
商湯還基于InternLM的輕量級(jí)模型,結(jié)合自研推理加速算法,與頭部手機(jī)芯片廠商建立研發(fā)合作,成功實(shí)現(xiàn)了大語(yǔ)言模型的手機(jī)端實(shí)時(shí)計(jì)算能力。
……
而這僅是商湯將大模型落地應(yīng)用的一隅,從眾多案例來(lái)看,也正應(yīng)了商湯聯(lián)合創(chuàng)始人、執(zhí)行董事徐冰的觀察:
市場(chǎng)對(duì)于AIGC、大模型技術(shù)的需求是非常強(qiáng)烈的;誰(shuí)能夠在市場(chǎng)上迅速地推出對(duì)標(biāo)業(yè)界領(lǐng)先能力的基模型,誰(shuí)就能跑得更快一些。
我們?cè)诨A(chǔ)設(shè)施中投入如此大的力量,也是要解決市場(chǎng)對(duì)于大模型落地固有的碎片化的問(wèn)題;讓基模型的泛化能力強(qiáng)大起來(lái),即便面對(duì)各種碎片化的需求都可以做到及時(shí)響應(yīng)。
因此,商湯的落地速度,從某種層面上也可以視為“強(qiáng)技術(shù)”與“強(qiáng)需求”之間的雙向奔赴了。
三看戰(zhàn)略布局
自從大模型熱潮以來(lái),一個(gè)經(jīng)久不斷的話題便是“開(kāi)源”和“閉源”。
其各自的優(yōu)勢(shì)也是越發(fā)的明顯:
? 開(kāi)源大模型:可以促進(jìn)技術(shù)的共享和交流,加速人工智能的發(fā)展;避免閉源模式下的技術(shù)獨(dú)霸和壟斷,促進(jìn)市場(chǎng)的公平競(jìng)爭(zhēng)。
? 閉源大模型:可以保護(hù)知識(shí)產(chǎn)權(quán),為公司帶來(lái)經(jīng)濟(jì)效益;提高公司的核心競(jìng)爭(zhēng)力,為公司在市場(chǎng)中占據(jù)優(yōu)勢(shì)地位。
但二者之爭(zhēng)也是進(jìn)展地如火如荼,國(guó)外大模型巨頭亦是如此,最為典型的便是Meta正在以開(kāi)源LLaMa系列來(lái)挑戰(zhàn) OpenAI的地位。
在這個(gè)關(guān)鍵問(wèn)題上,商湯的戰(zhàn)略布局與它們截然相反——不做選擇題,都要。
例如在開(kāi)源方面,商湯與多家科研機(jī)構(gòu)合作支持和推進(jìn)AI開(kāi)源平臺(tái)建設(shè),InternLM-7B的部分訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼及基模型權(quán)重已經(jīng)向?qū)W術(shù)界及工業(yè)界免費(fèi)開(kāi)源,并支持免費(fèi)商用。
而在閉源方面,商湯目標(biāo)打造具有競(jìng)爭(zhēng)力且好用的“基座模型”,如同英偉達(dá)賣“硬的鏟子”,商湯希望通過(guò)“軟的鏟子”,支持上萬(wàn)個(gè)潛在行業(yè)大模型的需求,真正解決行業(yè)痛點(diǎn)。
正如林達(dá)華表示:
二者是相輔相成、互補(bǔ)的,它們對(duì)產(chǎn)業(yè)來(lái)說(shuō)都有著非常重要的價(jià)值。
開(kāi)源能夠讓更多人接觸到大模型這個(gè)技術(shù)本身。在這個(gè)過(guò)程中,它可以碰撞出更多火花,讓大模型更好的應(yīng)用起來(lái),推動(dòng)整個(gè)大模型生態(tài)的建設(shè)。我想對(duì)全行業(yè)來(lái)說(shuō),開(kāi)源是一個(gè)非常正面的貢獻(xiàn)。
而閉源對(duì)于企業(yè)在市場(chǎng)中形成技術(shù)和競(jìng)爭(zhēng)力的壁壘起到至關(guān)重要的作用;未來(lái)若是能夠?qū)⒍咦龊芎玫慕Y(jié)合,會(huì)更好地推動(dòng)大模型市場(chǎng)的發(fā)展。
與此同時(shí),商湯還非??粗鼗P偷哪芰Γ?yàn)樵谒磥?lái),只有把基模型做得足夠強(qiáng),才能應(yīng)對(duì)碎片化極高的市場(chǎng)需求。
這也應(yīng)了徐冰的想法:
大語(yǔ)言模型也好,文生圖模型、多模態(tài)模型等等也罷,它們的發(fā)展今年都遵循了同樣的規(guī)律,就是先前碎片化,定制多;但現(xiàn)在轉(zhuǎn)為追求強(qiáng)大的基模型能力,追求強(qiáng)大的泛化能力,能夠直接接入到客戶場(chǎng)景里面,做好適配能夠很好地去迅速地形成商業(yè)上的價(jià)值變現(xiàn)閉環(huán)。
我們也粗略地估計(jì)了一下,全中國(guó)的行業(yè)大模型可能潛在的規(guī)模突破一萬(wàn)個(gè),因?yàn)檫@里面的場(chǎng)景非常多,玩家也非常多。這些行業(yè)的大模型是需要基于一個(gè)強(qiáng)大的基模型能力去生產(chǎn)的,它很難憑空只針對(duì)某個(gè)領(lǐng)域的數(shù)據(jù)就把行業(yè)大模型做好,因?yàn)樗鄙倭嘶P退軒?lái)的一系列的涌現(xiàn)能力。
……
總而言之,有實(shí)力、有落地、有布局,商湯能否解鎖“成為中國(guó)第一個(gè)達(dá)到GPT-4水平的大模型”,是值得期待一波了。
商湯刷新了自己
最后,我們?cè)倩氐缴虦旧怼?/p>
若是要用一句話來(lái)評(píng)價(jià)商湯這次交出的“成績(jī)單”,或許就是:
商湯自己刷新了自己。
曾幾何時(shí),大眾和市場(chǎng)對(duì)于商湯的印象可能依舊是停留在“AI視覺(jué)技術(shù)公司”這個(gè)標(biāo)簽上。
但也正是這樣的一個(gè)起點(diǎn),如果站在當(dāng)下這個(gè)時(shí)間節(jié)點(diǎn)回首,或許正應(yīng)了現(xiàn)在非常流行那句話:命運(yùn)的齒輪開(kāi)始轉(zhuǎn)動(dòng)了。
現(xiàn)在大模型所需要的多模態(tài)技術(shù),不論是自然語(yǔ)言處理,還是圖像處理等,商湯已經(jīng)早早涉足且深耕;現(xiàn)在大算力上的“一票難求”,商湯也是早早布局打造AIDC,為日后的大裝置做好了充足的鋪墊。
而且商湯更是在ChatGPT引爆AIGC大熱潮之前,便已經(jīng)在大模型領(lǐng)域著手研發(fā)。
并且在2019年,商湯便使用上千張GPU進(jìn)行單任務(wù)訓(xùn)練,推出了10億參數(shù)規(guī)模的視覺(jué)模型,并實(shí)現(xiàn)了當(dāng)時(shí)業(yè)界最好的算法效果。
后來(lái)在2021年到2022年期間,商湯訓(xùn)練并開(kāi)源了30億參數(shù)的多模態(tài)大模型書生。
而當(dāng)熱潮退去,市場(chǎng)迎來(lái)落地大考之際,商湯又能將長(zhǎng)期準(zhǔn)備好的一系列的成果通過(guò)完備生產(chǎn)要素和生產(chǎn)資料、靈活的“玩法”和布局來(lái)應(yīng)對(duì)。
因此,現(xiàn)在的商湯更像是一個(gè)新型技術(shù)基建平臺(tái),時(shí)刻在為即將到來(lái)且充滿變數(shù)的未來(lái)在做著準(zhǔn)備。
總而言之,商湯,是時(shí)候需要被重估了。
One More Thing
好消息!商湯大模型應(yīng)用“商量SenseChat”即日起全面向廣大用戶開(kāi)放服務(wù)了!
可戳下方鏈接了解一下:https://chat.sensetime.com