GPT類型的LLM大語言模型,生成圖片類型的Diffusion Models目前是人工智能領(lǐng)域最爆火的應(yīng)用基礎(chǔ)。
這兩類技術(shù)基礎(chǔ),可以在互聯(lián)網(wǎng)應(yīng)用上生成文字、圖片、視頻,然后人工智能技術(shù)把這些應(yīng)用組合就成了所謂的 Agentic AI;然后物理世界的Physical AI 例如當(dāng)前的自動(dòng)駕駛,機(jī)器人也基于這些技術(shù)的基礎(chǔ)來實(shí)現(xiàn)。
我們之前分享的VLM(具體點(diǎn)擊一文深度看懂視覺語言模型 (VLM))和VLA(具體可以點(diǎn)擊一文看懂視覺語言動(dòng)作模型(VLA)及其應(yīng)用),他們本質(zhì)都是基于LLM的一維規(guī)則去編碼視覺感知,然用用LLM的算法基礎(chǔ)去推理,形成結(jié)論然后解碼成輸出。
可是,以發(fā)明圖片AI算法 ImageNet 而聞名的斯坦福大學(xué)教授李飛飛和 Meta首席人工智能科學(xué)家 Yann LeCun等計(jì)算機(jī)科學(xué)家正在構(gòu)建他們所謂的“世界模型”。
與大語言模型不同,大語言模型根據(jù)訓(xùn)練數(shù)據(jù)中的單詞和短語之間的統(tǒng)計(jì)關(guān)系來確定輸出,而世界模型則根據(jù)人類對(duì)周圍世界的心理構(gòu)造來預(yù)測事件?!罢Z言在自然界中并不存在,”李飛飛在最近一期安德森·霍洛維茨的a16z播客節(jié)目中說道?!叭祟?,不僅生存、生活和工作,我們還在語言之外構(gòu)建文明?!?/p>
計(jì)算機(jī)科學(xué)家、麻省理工學(xué)院教授杰伊·賴特·福雷斯特 (Jay Wright Forrester) 在其 1971 年的論文《社會(huì)系統(tǒng)的反直覺行為》中解釋了為什么心理模型對(duì)人類行為至關(guān)重要:
我們每個(gè)人都在不斷地使用模型。每個(gè)人在私人生活和商業(yè)活動(dòng)中都會(huì)本能地使用模型進(jìn)行決策。一個(gè)人頭腦中關(guān)于周圍環(huán)境的心理圖像就是模型。他的頭腦中并不包含真實(shí)的家庭、企業(yè)、城市、政府或國家。他使用選定的概念和關(guān)系來代表真實(shí)的系統(tǒng)。心理圖像就是模型。所有決策都基于模型做出。所有法律都基于模型制定。所有行政措施都基于模型。問題不在于使用還是忽略模型。問題僅在于在備選模型中進(jìn)行選擇。
如果人工智能要達(dá)到或超越人類智能,那么其背后的研究人員相信它也應(yīng)該能夠建立心智模型。李飛飛一直通過世界實(shí)驗(yàn)室 (World Labs) 致力于這項(xiàng)工作。她于 2024 年與他人共同創(chuàng)立了世界實(shí)驗(yàn)室,最初獲得了 Andreessen Horowitz、New Enterprise Associates 和 Radical Ventures 等風(fēng)險(xiǎn)投資公司的 2.3 億美元投資。世界實(shí)驗(yàn)室在其網(wǎng)站上表示:“我們的目標(biāo)是將人工智能模型從二維像素平面提升到完整的三維世界——既包括虛擬世界,也包括現(xiàn)實(shí)世界——賦予它們與我們一樣豐富的空間智能?!?/p>
李飛飛在 No Priors 播客中表示,空間智能是“理解、推理、交互和生成 3D 世界的能力”,因?yàn)槭澜鐝母旧蟻碚f是三維的。李飛飛表示,她看到了世界模型在創(chuàng)意領(lǐng)域、機(jī)器人技術(shù)以及任何需要無限宇宙的領(lǐng)域中的應(yīng)用。就像Meta、Anduril和其他硅谷重量級(jí)公司一樣,這可能意味著軍事應(yīng)用的進(jìn)步,幫助戰(zhàn)場上的士兵更好地感知周圍環(huán)境,并預(yù)測敵人的下一步行動(dòng)。構(gòu)建世界模型的挑戰(zhàn)在于缺乏足夠的數(shù)據(jù)。
與人類歷經(jīng)數(shù)個(gè)世紀(jì)不斷完善和記錄的語言相比,空間智能的發(fā)展程度較低?!叭绻易屇悻F(xiàn)在閉上眼睛,畫出或構(gòu)建一個(gè)你周圍環(huán)境的3D模型,那可不是那么容易,”她在No Priors播客中說道?!霸诮?jīng)過訓(xùn)練之前,我們還沒有能力生成極其復(fù)雜的模型?!睘榱耸占@些模型所需的數(shù)據(jù),“我們需要越來越復(fù)雜的數(shù)據(jù)工程、數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)合成,”她說。這使得建立一個(gè)可信的世界的挑戰(zhàn)變得更加艱巨。
在 Meta,首席人工智能科學(xué)家 Yann LeCun有一個(gè)專門從事類似項(xiàng)目的小團(tuán)隊(duì)。該團(tuán)隊(duì)使用視頻數(shù)據(jù)訓(xùn)練模型,并運(yùn)行在不同層面抽象視頻的模擬。他在今年早些時(shí)候于巴黎舉行的人工智能行動(dòng)峰會(huì)上表示:“其基本思想是,你不會(huì)在像素級(jí)別進(jìn)行預(yù)測。你訓(xùn)練一個(gè)系統(tǒng)來運(yùn)行視頻的抽象表示,這樣你就可以在這種抽象表示中進(jìn)行預(yù)測,并希望這種表示能夠消除所有無法預(yù)測的細(xì)節(jié)?!?/p>
這創(chuàng)建了一組更簡單的構(gòu)建模塊,用于繪制世界在特定時(shí)間將如何變化的軌跡。被中國罵得最多的百度李彥宏一樣,相信這些模型是創(chuàng)造真正智能的 AI 的唯一途徑。李彥宏最近在新加坡國立大學(xué)表示:“我們需要能夠快速學(xué)習(xí)新任務(wù)的人工智能系統(tǒng)。它們需要理解物理世界——不僅僅是文本和語言,而是現(xiàn)實(shí)世界——擁有一定程度的常識(shí)、推理和規(guī)劃能力,以及持久記憶——所有這些都是我們對(duì)智能實(shí)體的期望。
看完了以上大佬們的總結(jié)。世界模型是一種生成式人工智能系統(tǒng),它從各種輸入數(shù)據(jù)中學(xué)習(xí)現(xiàn)實(shí)世界環(huán)境的內(nèi)部表征,包括其物理特性、空間動(dòng)態(tài)特性和因果關(guān)系(至少是基本的因果關(guān)系)。它們利用這些學(xué)習(xí)到的表征來預(yù)測未來狀態(tài),在內(nèi)部模擬一系列動(dòng)作,并支持復(fù)雜的規(guī)劃和決策,而無需持續(xù)進(jìn)行現(xiàn)實(shí)世界的實(shí)驗(yàn)。
其實(shí)當(dāng)前大家提的世界模型,是采用一維大語言Transformer為基礎(chǔ)或者二維圖片Diffusion算法為基礎(chǔ)來實(shí)現(xiàn)。那是不是未來世界模型的核心3D空間智能會(huì)找到另外一種三維算法呢?
*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-獲取本文參考資料方式:
加入我們的知識(shí)星球可以下載公眾號(hào)海量參考資料包含以上參考資料。