• 正文
    • 01.MosaicML是誰?僅15名研究員,英特爾AI大佬創(chuàng)業(yè),已開源大模型
    • 02.超級獨角獸出手,加碼開源大模型與OpenAI掰腕子
    • 03.AI大模型創(chuàng)業(yè)的機遇點:垂直行業(yè)、數(shù)據(jù)安全、更低成本
    • 04.結語:生成式AI創(chuàng)業(yè)“吸金” 創(chuàng)企要避開巨獸的腳印
  • 推薦器件
  • 相關推薦
申請入駐 產業(yè)圖譜

94億!生成式AI領域最大并購案誕生

2023/06/28
997
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者?|??李水青
編輯?|??心緣

僅創(chuàng)立兩年員工62人,這家AI創(chuàng)企什么來路?

生成式AI領域的最大并購案已經誕生!

智東西6月27日報道,據(jù)華爾街日報今日消息,大數(shù)據(jù)超級獨角獸Databricks近日已同意以13億美元(約合94億元人民幣),收購生成式AI初創(chuàng)公司MosaicML,引起了國內外資本和智能圈的關注。

MosaicML是一家2021年創(chuàng)立于美國舊金山的AI軟件公司,截至目前公司總人數(shù)62人,此前僅獲得了6400萬美元融資。這樣一家小AI公司為何能賣出百億元人民幣身價?從消息面上看,MosaicML的創(chuàng)業(yè)團隊由英特爾負責AI的前高管掌舵,剛剛在今年6月開源了一個300億參數(shù)規(guī)模的大語言模型MPT-30B,這些動向都為其成為“OpenAI挑戰(zhàn)者”埋下伏筆。同樣位于舊金山的Databricks是一家知名數(shù)據(jù)存儲和管理公司,本次收購MosaicML,按照其說法,是要助企業(yè)客戶利用專有數(shù)據(jù),以更低成本構建語言模型,趕超GPT等大模型。

當下正值AI掀起新浪潮,微軟、OpenAI、谷歌等科技大廠的聲勢浩大,國內的“百模大戰(zhàn)”也進入深水區(qū)。當下,一些國內投資者對AI大模型創(chuàng)業(yè)的前景產生了懷疑,比如知名投資人、金沙江創(chuàng)投董事總經理朱嘯虎就直言,ChatGPT對創(chuàng)業(yè)公司很不友好,未來兩三年內請大家放棄。MosaicML收購案或許能為當下的產業(yè)圈提供新的參考。

在OpenAI及科技大廠當?shù)赖拇竽P蜁r代,AI創(chuàng)企的發(fā)展空間在哪里?MosaicML這樣創(chuàng)立僅兩年的公司為何能賣出高價?這對國內市場有什么參考意義?本文對此進行了深入探討。

01.MosaicML是誰?僅15名研究員,英特爾AI大佬創(chuàng)業(yè),已開源大模型

首先來看看MosaicML公司是什么來路。從規(guī)模上看,MosaicML并不大。根據(jù)外媒援引官方披露消息,MosaicML目前擁有62名員工,其中研究人員僅為15名,在舊金山、紐約、帕洛阿爾托和圣迭戈設有辦事處,迄今為止主要是從Lux Capital和DCVC等投資者那里籌集了6400萬美元。但MosaicML的創(chuàng)業(yè)團隊不簡單。MosaicML聯(lián)合創(chuàng)始人兼首席執(zhí)行官Naveen Rao曾任英特爾副總裁兼AI產品事業(yè)部總經理。Rao之前創(chuàng)辦了AI芯片公司Nervana,于2016年以4.08億美元被英特爾收購。MosaicML的CTO Hanling Tang是前英特爾AI實驗室高級總監(jiān),可以說MosaicML是妥妥的大佬創(chuàng)業(yè)。

▲MosaicML聯(lián)合創(chuàng)始人兼首席執(zhí)行官Naveen Rao(左)和CTO Hanling Tang(右)

MosaicML已經開源了大語言模型,接受市場檢閱。今年5月,其開源了70億參數(shù)規(guī)模的大語言模型MPT-7B,緊接著在6月開源了第二個開源大型語言模型MPT-30B。該公司稱,盡管其參數(shù)量僅為300億,是GPT-3的1750億參數(shù)的1/6,但在推理任務表現(xiàn)超過GPT-3,且能更容易在本地硬件上運行,部署推理成本更低。Rao承認,GPT-4在大多數(shù)方面的功能都更為優(yōu)越,不過,MosaicML的模型提供了更長的上下文長度,這允許獨特的用例,例如讓其生成著名小說《了不起的蓋茨比》的尾聲,且成本更低。按照MosaicML的說法,300億的參數(shù)規(guī)模是其精心選擇的結果,可以更好地針對GPU進行優(yōu)化:其能夠輕松部署在單個GPU上,在16位精度對應一塊80GB內存的A100 GPU,也可以在8位精度對應一塊40GB的A100GPU。據(jù)稱該模型在眾多任務中實際效果優(yōu)于更費算力的LLaMA、Falcon。Rao在采訪中提到,MosaicML使用了一種名為“FlashAttention”的技術,使用戶能更快地進行推理和訓練。

同時,MPT-30B接受了比其他模型更長的序列的訓練,最多達8000個標記;但包括GPT-3、LLaMA和 Falcon每個模型僅為2000個標記。簡單說,這意味著用戶可以輸入更長的提示,可能更適合數(shù)據(jù)密集型企業(yè)應用程序。醫(yī)療保健和銀行等行業(yè)可以受益于MosaicML解釋和匯總大量數(shù)據(jù)的能力。例如,在醫(yī)學領域,該模型可以解釋實驗室結果,并通過分析各種輸入來深入了解患者的病史。開源模型更有利于保障醫(yī)療數(shù)據(jù)安全,通過API將其發(fā)送給OpenAI則威脅數(shù)據(jù)安全。

Rao說,其可以助一個模型的構建成本從數(shù)千萬美元降至數(shù)十萬美元。不過,很難完全獨立驗證MosaicML的說法,因為Rao談到的三個開源大語言模型項目(MosaicML、LLaMA和Falcon)尚未使用斯坦福大學的HELM措施等權威方式進行測試。但可以肯定的是,MosaicML在這幫英特爾系AI大牛的帶領下,正通過對準GPT模型的局限之處,試圖越過OpenAI實現(xiàn)彎道超車。

02.超級獨角獸出手,加碼開源大模型與OpenAI掰腕子

不僅MosaicML是開源大語言模型的代表,其收購方Databricks也是開源模型的重要倡導者。Databricks創(chuàng)立于2013年,是一家由美國伯克利大學AMP實驗室著名的Spark大數(shù)據(jù)處理系統(tǒng)多位創(chuàng)始人聯(lián)合創(chuàng)立的Spark商業(yè)化公司。相比于微軟、谷歌等大廠,Databricks實際上也只能算一家創(chuàng)企。但其在2021年8月完成了一輪16億美元融資,當年已成為估值達380億美元的超級獨角獸,趕超了OpenAI當下的估值。營收方面,根據(jù)Databricks公布數(shù)據(jù),其在2022年年收入超過10億美元,這都為公司收購MosaicML提供了經濟基礎。

在AI方面,Databricks主張開源模型可以與OpenAI等公司提供的模型相媲美。今年4月,Databricks公布了其更新之后的開源Dolly大語言模型,它能夠響應客戶查詢,根據(jù)Databricks智能湖倉內的數(shù)據(jù)給出答案。隨著ChatGPT卷起新浪潮,Databricks也憑借其湖倉一體平臺允許數(shù)據(jù)團隊存儲和保護數(shù)據(jù),支持機器學習工具的開發(fā);Databricks同時也提供TensorFlow等流行AI框架集成,降低企業(yè)構建和部署AI模型的門檻。并不是每個人、每個應用程序都需要GPT-4。Databricks的首席執(zhí)行官Ali Ghodsi說,現(xiàn)成的模型接受過互聯(lián)網(wǎng)數(shù)據(jù)的訓練,雖然已經可用,但它們充滿了可能扭曲結果的無關信息,外部供應商構建的模型中的數(shù)據(jù)隱私安全問題也值得警惕。

Databricks的一大核心技術被稱為Lakehouse(湖倉一體),可以為AI應用管理數(shù)據(jù),并將數(shù)據(jù)、分析和AI編程工具統(tǒng)一在一個系統(tǒng)中。MosaicML并入Databricks后將成為旗下的一項獨立服務,助企業(yè)利用專有數(shù)據(jù)構建低成本語言模型。比如,Replit這樣提供編程工具的公司已在使用Databricks作為數(shù)據(jù)管道,進而將信息傳輸?shù)組osaicML來訓練代碼生成模型,進而服務其客戶??梢钥吹剑瑪?shù)據(jù)智能獨角獸Databricks正試圖通過并入AI大模型能力,挑戰(zhàn)微軟、OpenAI、谷歌等大公司的市場統(tǒng)治力,為產業(yè)提供了新的參考。不過,也有人將MosaicML收購案看作借大模型熱度炒作,因為Databricks主營Lakehouse,主要是用Spark來處理大規(guī)模集群數(shù)據(jù),因此其整合大語言的價值并不明確。尚不清楚Databricks通過何等方式支付收購項目。因此,這一并購案能否真正證明MosaicML的商業(yè)價值,仍需要等待時間的驗證。

03.AI大模型創(chuàng)業(yè)的機遇點:垂直行業(yè)、數(shù)據(jù)安全、更低成本

當下正值國內“百模大戰(zhàn)”進入深水區(qū),MosaicML并購案或許對國內產業(yè)也能帶來一些新參考。且不論Databrick豪擲千金的真實意圖,這一案例體現(xiàn)了國外市場對AI大模型創(chuàng)業(yè)的積極態(tài)度。本次被收購的MosaicML公司創(chuàng)立僅兩年,公司僅62人,但收購價格達到了近100億元人民幣的高價,給國內AI大模型創(chuàng)業(yè)增添了一定信心。近日,國內投資圈出現(xiàn)了對生成式AI及大模型投資的懷疑。美團聯(lián)合創(chuàng)始人王慧文因病離職引起人們對AI創(chuàng)業(yè)難度的擔憂,昨日獵豹移動CEO傅盛與金沙江創(chuàng)投董事總經理朱嘯虎在朋友圈就ChatGPT的爭論也引起關注。朱哮虎認為ChatGPT對創(chuàng)業(yè)公司很不友好,未來兩三年內請大家放棄,傅盛吐槽說“硅谷一半的創(chuàng)業(yè)企業(yè)都圍繞chatgpt開始了,我們的投資人還能這么無知者無畏”,朱嘯虎在評論區(qū)說傅盛是抬杠。

市場分析公司PitchBook Data數(shù)據(jù)顯示,全球生成式AI市場的支出到今年底預計將達到426億美元,到2026年將達到981億美元。報告稱,生成式AI初創(chuàng)公司的風險投資從2022年全年的48億美元增至2023年前5個月的127億美元。值得一提的是,垂直行業(yè)大模型市場正成為重要的機會點,密集數(shù)據(jù)成為AI大模型創(chuàng)業(yè)成功的關鍵要素。生物制藥服務公司Syneos Health的首席信息兼數(shù)字官Larry Pickett在近期談道,目前根據(jù)專業(yè)健康數(shù)據(jù)訓練模型的成本,大約為100萬至200萬美元。通過使用較小的開源預訓練模型,而不是在OpenAI擁有的整個數(shù)據(jù)集之上構建,花費會大大減少。企業(yè)技術領導者面臨著為AI模型準備數(shù)據(jù)的壓力,數(shù)據(jù)和數(shù)據(jù)智能平臺成為痛點也成為創(chuàng)業(yè)者的機會點。可以看到,垂直行業(yè)、數(shù)據(jù)安全、更低成本,這些要素或許都是AI創(chuàng)企避開巨獸腳印,謀求商業(yè)化成功的重要機會點。

04.結語:生成式AI創(chuàng)業(yè)“吸金” 創(chuàng)企要避開巨獸的腳印

13億美元的大額生成式AI并購案為AI創(chuàng)業(yè)帶來了新參考。盡管MosaicML公司的創(chuàng)立時間、規(guī)模、人才實力看起來都十分有限,且其大模型效果仍未趕超GPT-4,MosaicML仍被收購方Databricks給予了較高認可,從而階段性地驗證了其價值。實際上,也有人認為Databricks整合大語言模型的價值不夠明確,可能是借大模型熱度炒作,這一案例參考性還需要時間驗證。不過無論如何,MosaicML案例也確實點明了垂直行業(yè)、數(shù)據(jù)安全、更低成本這些AI創(chuàng)業(yè)的關鍵要素,值得產業(yè)參考。

 

 

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
ATTINY85-20SUR 1 Atmel Corporation RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PDSO8, 0.208 INCH, GREEN, EIAJ, PLASTIC, SOIC-8

ECAD模型

下載ECAD模型
$1.43 查看
CP2102N-A02-GQFN28R 1 Silicon Laboratories Inc USB Bus Controller, CMOS, QFN-28

ECAD模型

下載ECAD模型
$2.5 查看
STM32F030C8T6 1 STMicroelectronics Mainstream Arm Cortex-M0 Value line MCU with 64 Kbytes of Flash memory, 48 MHz CPU

ECAD模型

下載ECAD模型
$3.22 查看

相關推薦