• 正文
    • 100位模型工程師的大腦
    • 產(chǎn)品化的能力
  • 推薦器件
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

如果集合100個模型工程師的大腦,然后變成一個工廠

2023/07/05
1013
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者|油醋
郵箱|zhuzheng@pingwest.com

大模型,到底是一場無限游戲還是一場有限游戲?

ChatGPT打過照面的人開始暢想一場無邊界的AGI愿景,但真的接近它的人,想法或許越來越傾向后者。

“巨大的參數(shù),巨量高質(zhì)量的數(shù)據(jù)來源,以及融合在各種不同訓(xùn)練方法中的Knowhow,如果任何廠商說自己在三、四個月之內(nèi)做出來一個跟OpenAI效果相近的超大模型,基本上都是唬人的。而如果能力達不到GPT-4,商用就無從談起,GPT-3.5都不行?!?/p>

6月末竹間智能CEO簡仁賢這樣說的時候,行業(yè)對于通用大模型的熱度已經(jīng)迅速降溫。

兩個月前在MIT發(fā)生的一次討論中,OpenAI CEO Sam Altman現(xiàn)身,他表示“誕生 ChatGPT 的研究策略已經(jīng)結(jié)束”,未來模型的進一步變大將不會進一步帶來新進展。在描述 GPT-4 的論文中,OpenAI預(yù)估擴展模型規(guī)模擴大的邊際收益將出現(xiàn)遞減。而訓(xùn)練背后,數(shù)據(jù)中心的存量和建造速度也會成為限制。OpenAI在6月除了推出了token數(shù)擴展到32000個的GPT-4-32k,也同時推出了另一個向下兼容的版本:基于GPT-3但模型規(guī)模更小的GPT-3.5-turbo。

投資領(lǐng)域也開始有“創(chuàng)業(yè)公司做通用大模型的機會是0”這樣的論調(diào)出現(xiàn),甚至如華映資本表示在未來5-10年國內(nèi)能活下來并且產(chǎn)生商業(yè)價值的通用大模型不會超過三家。這樣的呼聲呼應(yīng)了李彥宏以及李志飛等人在此之前對于通用大模型競爭的悲觀前景。

從商業(yè)角度,最有前景的大模型方向開始變成垂直領(lǐng)域,參數(shù)量則被校準(zhǔn)到了幾十億到幾百億的區(qū)間。早在去年11月ChatGPT出來后,簡仁賢做了一個簡單的測試,然后決定放棄AGI的方向。

2015年簡仁賢離開微軟互聯(lián)網(wǎng)工程院,帶著微軟小娜Cortana的研發(fā)經(jīng)驗另起爐灶,成立竹間智能,主攻NLP(自然語言處理)領(lǐng)域,力圖成為以理解人類語言和情緒為目標(biāo)的科技公司。2017年公司開始商業(yè)化探索,2020年形成規(guī)?;涞?。目前竹間智能已經(jīng)為600多家客戶做了NLP的落地。

竹間智能在國內(nèi)ToB的AI領(lǐng)域玩了8年的有限游戲。簡仁賢對于大模型研發(fā)的門檻和機會有清晰構(gòu)想。

通用人工智能(AGI)大模型的商業(yè)化路徑勢必通往ToC,但算力、數(shù)據(jù),以及巨額資金對于竹間這樣一家仍然保持初創(chuàng)公司體型的公司來說都是擺在明面上的巨大障礙。

但他也明白這場8年的有限游戲中,竹間智能得到了什么。

理性的放棄是為了在另一個方向上提前起步。ChatGPT在去年11月出現(xiàn)后,簡仁賢很快決定推進Prompt Builder與 Model Factory (模型工廠)的研發(fā),到現(xiàn)在已經(jīng)8個月,Model Factory也引出了竹間在大模型上的新故事。

100位模型工程師的大腦

“目前市面上幾乎所有大模型都基于Transformer框架展開,或者說,我們在談?wù)摰拇竽P透袷且粋€復(fù)雜的數(shù)據(jù)處理與模型訓(xùn)練工程。”簡仁賢說。

“模型訓(xùn)練還是在復(fù)制別人,CoT(思維鏈)是人家的Paper,InContext Learning也已經(jīng)有很多研究者做了大量工作,包括Tree of Thought、RLHF也是人家發(fā)明出來的一個方法,你只是把這些方法拿來再復(fù)現(xiàn)一次而已?!?/p>

這并不是創(chuàng)新。但簡仁賢認為更大的創(chuàng)新空間也從這里延伸出來——如何將這樣的大模型訓(xùn)練任務(wù)批量化,規(guī)模化,并且做到低成本。

這也是為什么Prompt Builder與 Model Factory研發(fā)被這么早地提上日程。在竹間智能內(nèi)部,Prompt Builder已經(jīng)開始替代產(chǎn)品經(jīng)理的角色,Model Factory 已經(jīng)替代模型工程師做模型微調(diào)的大部分工作,并且滲透進所有關(guān)于大模型的研發(fā)體系。這個并不顯眼的技術(shù)起點投射出竹間在大模型競爭中的入局野心。

將一百位模型工程師的大腦聚集成一個工廠,或者叫EmotiBrain。

Prompt Builder所包含的Prompt模版集以及優(yōu)化和管理能力,都被內(nèi)嵌在大模型訓(xùn)練微調(diào)平臺EmotiBrain的 Model Factory內(nèi),后者是竹間研發(fā)的一個大語言模型訓(xùn)練工具。

簡仁賢演示了一下企業(yè)如何用EmotiBrain來訓(xùn)練出一個適合的模型。

這是一個流水線的訓(xùn)練方式。使用者選擇一個基礎(chǔ)預(yù)訓(xùn)練模型,然后選擇對應(yīng)的行業(yè)數(shù)據(jù),企業(yè)自有數(shù)據(jù),指令集數(shù)據(jù),以及同時可以選擇多種微調(diào)方法(整個fine-tuning的過程是自動化的)。所有細節(jié)都選定之后,平臺智能的分配GPU資源,并開始執(zhí)行模型訓(xùn)練。在EmotiBrain上,多個模型訓(xùn)練可以同時運行,使用者選定一個目標(biāo)任務(wù)后,可以改變基礎(chǔ)模型、測試數(shù)據(jù)以及微調(diào)方式來生成不同的模型,通過模型評測,并選取最優(yōu)者。

EmotiBrain模型訓(xùn)練界面 ?圖源:竹間智能

EmotiBrain能夠?qū)崿F(xiàn)從訓(xùn)練數(shù)據(jù)生成,數(shù)據(jù)梳理清洗,標(biāo)注,到選擇預(yù)訓(xùn)練基礎(chǔ)模型,實驗不同的微調(diào)方法,不同人員進行多次微調(diào)直到測試、部署以及最后應(yīng)用的集成整體化。它可以進一步被拆分成多方面的能力,Prompt Builder是其中之一,另一方面,其內(nèi)含的Model Factory擁有高質(zhì)量的中英文訓(xùn)練數(shù)據(jù)集,支持Fine-tune、Prompt Tuning、Instruct Tuning、LoRA、QLoRA等多種微調(diào)模式,可同時訓(xùn)練上百個大模型,大大減少訓(xùn)練最優(yōu)模型的時間,也降低了模型訓(xùn)練成本;Chat Search則是一個大模型驅(qū)動的對話搜索引擎。

生成式AI的黑箱屬性轉(zhuǎn)變成模型訓(xùn)練的偶然性。這意味著企業(yè)在訓(xùn)練最適合自己的模型時很難一擊即中,它是訓(xùn)練出來的,也是多次訓(xùn)練之后選出來的。EmotiBrain在多模型同時訓(xùn)練的基礎(chǔ)上提供了一個模型評估機制。比如一個法律咨詢場景下的對話AI,將多個訓(xùn)練完的模型呈現(xiàn)出來之后會以相同的提問同時測試各個模型,企業(yè)可以根據(jù)評估結(jié)果來選擇更好的那個模型。

對于大量非AI領(lǐng)域的企業(yè)來說,聘請模型工程師是非常奢侈的事情,模型工程師人才短缺是一個大挑戰(zhàn)。簡仁賢說表示,“EmotiBrain相當(dāng)于有100個模型工程師在幫你干活”。這樣一個將集體智慧凝結(jié)成自動化流程的過程也并不是一蹴而就的。

2017年推出機器人定制云平臺Bot Factory后,竹間智能也同時開始了NLP模型的自動化訓(xùn)練,對于 Transformer 的模型開發(fā)也是從2019就開始的,積累到現(xiàn)在已經(jīng)有超過1000個意圖理解模型,500多個解析器,總共的模型積累超過3000個。與此同時,一個竹間內(nèi)部的機器學(xué)習(xí)平臺也在成型,并且開始承載整個模型訓(xùn)練的過程。

這一套模型訓(xùn)練的流水線機制在內(nèi)部研發(fā)中打磨多年后,去年年中谷歌效果驚人的LaMDA2發(fā)布,竹間科技決定轉(zhuǎn)向大模型,開始用Bloom作為target(被預(yù)測內(nèi)容)來打磨自己的機器學(xué)習(xí)平臺,并且嘗試訓(xùn)練自己的基礎(chǔ)大模型,現(xiàn)在的EmotiBrain也在機器學(xué)習(xí)平臺能力擴展之后形成。

但一個大模型訓(xùn)練微調(diào)平臺只是基礎(chǔ)。

彭博行業(yè)研究近日的報告預(yù)測,目前市場規(guī)模僅為400億美元的生成式AI在2032年將會膨脹為一個1.3萬億美元規(guī)模以上的市場。而簡仁賢對生成式AI在ToB領(lǐng)域的最終市場規(guī)模的預(yù)估也在數(shù)萬億級別,而這個市場中的勝負手最終將是產(chǎn)品化,規(guī)?;c降低成本的能力。

“中國有14億人,10億以上的網(wǎng)民,但絕大多數(shù)人并不會使用模型,你要給他產(chǎn)品應(yīng)用,而不是給他模型?!?/p>

EmotiBrain是竹間智能“1+4”大模型產(chǎn)品體系中基礎(chǔ)性的“1”,它的能力將會借助四個方面的核心產(chǎn)品進一步具像化。

產(chǎn)品化的能力

這四個產(chǎn)品方向分別是對話、對練培訓(xùn)、知識管理和寫作助手。

Bot Factory+和KKBot延續(xù)了竹間智能在對話方向的產(chǎn)品積累,前者包含大模型和快速模型協(xié)同的雙引擎智能對話技術(shù),可以實現(xiàn)對于問答的自動抽取和知識沉淀,在不斷的人機交互中不斷優(yōu)化回答質(zhì)量和速度。問答所形成的知識庫,以及流程知識和圖譜知識,也可以通過Bot Factory+來管理。

KKBot可以理解為個人或企業(yè)的辦公Copilot,企業(yè)可以根據(jù)自身業(yè)務(wù)場景和需求在KKBot上選擇適合自己的大模型,形成個性化的對話場景和功能,并且竹間提供私有化部署的解決方案來保證企業(yè)數(shù)據(jù)安全。Bot Factory+和KKBot的組合使用則可以進一步強化由AI對話能力帶來的生產(chǎn)力提升,兩者的結(jié)合可以控制大語言模型胡言亂語的現(xiàn)象。

Emoti Coach是竹間智能研發(fā)的一款基于大語言模型的仿真對練軟件,在大模型能力的加持下,基于企業(yè)自有知識與大模型具備的能力,通過簡單提示就可以生成豐富的課程和對練場景,Emoti Coach的沉浸式特點意味著其對練環(huán)境逼近實戰(zhàn),也更容易獲得真實的1:1對練效果。融入大模型能力后,它能夠為練習(xí)者給出及時且細顆粒度的反饋。

可以自動構(gòu)建知識圖譜及知識管理的Knowledge Factory定位為企業(yè)級的知識工廠,提供了模糊搜索和語意搜索相結(jié)合的方式來檢索企業(yè)中的相關(guān)文檔,并且能夠在文檔之間建立智能關(guān)系網(wǎng)絡(luò)。對于員工個體,Knowledge Factory提供續(xù)寫、改寫、翻譯和總結(jié)等生成式能力來輔助提高工作效率。而嚴格的安全審核機制則會確保文檔作為企業(yè)的知識沉淀能夠避開風(fēng)險。

竹間智能“1+4”大模型產(chǎn)品體系 ?圖源:竹間智能

而針對文檔創(chuàng)作,竹間智能研發(fā)了企業(yè)級的寫作助手產(chǎn)品Magic Writer,可以進一步解放員工在文檔上的生產(chǎn)力。借助內(nèi)置的豐富文檔模版,員工只要輸入必要的關(guān)鍵詞就可以自動實現(xiàn)文檔的生成,而Knowledge Factory的內(nèi)容生成能力與安全審核機制也會在Magic Writer中得到體現(xiàn),可以依據(jù)企業(yè)私有數(shù)據(jù)來創(chuàng)作,避免通用模型會胡言亂語的情形。

外界對于大模型的關(guān)注多放在大廠與新的創(chuàng)業(yè)公司兩端,前者有足夠的資源、研發(fā)能力和自有場景,后者往往可以將矚目的創(chuàng)始團隊轉(zhuǎn)換成巨大的想象空間。相較之下,在NLP領(lǐng)域扎根多年的公司反而被忽視。但當(dāng)外界將視線更多聚焦到行業(yè)大模型與企業(yè)定制化模型上,竹間智能的產(chǎn)品優(yōu)勢開始顯現(xiàn)出來。

企業(yè)需要一個能真正跨越大模型與用戶之間“最后一公里”的解決方案,而不僅僅是孤立的服務(wù)或工具?!耙唤M零散的工具對企業(yè)是沒有用的,因為企業(yè)沒有那么多能做模型的IT人員”,簡仁賢說。

竹間智能積累了包括私有部署跟SaaS服務(wù)在內(nèi)的六七百個大客戶,AI產(chǎn)品也在多年的大客戶驗證中趨于成熟,“1+4”大模型產(chǎn)品體系可以看做是從前的產(chǎn)品和行業(yè)Knowhow用大語言模型來做升級,這是竹間自己的“最后一公里”,但在此之前,基礎(chǔ)的產(chǎn)品化能力則是一段必須要用5-7年才能走完的路。

竹間提供的是一個端到端的解決方案,這是在NLP領(lǐng)域多年積累后的AI公司相比市面上廣泛談?wù)揗aaS的其他玩家所具有的獨特優(yōu)勢。

“Model is new Code(模型就是新型代碼)”。竹間提出了這樣的理念。

從20世紀(jì)90年之前程序員以紙帶和純文本形式編寫代碼,到之后集成開發(fā)環(huán)境(IDE)與提供代碼補全和錯誤提示的語言服務(wù)器協(xié)議(LSP)的出現(xiàn),人類的編碼歷史也是一條降低開發(fā)者輸入門檻的歷史。大模型的興起已經(jīng)席卷各行各業(yè),未來的軟件將由大型語言模型驅(qū)動,模型也就成了新的代碼。

從這個意義上講,為了彌合用戶、企業(yè)與大模型之間的巨大鴻溝,負責(zé)大模型生產(chǎn)的流水線工廠會作為一種基礎(chǔ)設(shè)施長久存在。竹間智能的機會也在這里。

 

 

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATMEGA1284P-AU 1 Atmel Corporation RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQFP44, 10 X 10 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ACB, TQFP-44

ECAD模型

下載ECAD模型
$5.69 查看
PIC32MX575F512H-80I/PT 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP64, 10 X 10 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-64

ECAD模型

下載ECAD模型
$9 查看
FT2232HL-TRAY 1 FTDI Chip USB Bus Controller, CMOS, PQFP64, LEAD FREE, LQFP-64

ECAD模型

下載ECAD模型
$5.88 查看

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄