隨著世界模型 World Model(WM)?在 AI 研究、特別是汽車和機(jī)器人等應(yīng)用領(lǐng)域日益受到關(guān)注,越來越多的人包括從業(yè)人員,投資者、AI 愛好者和 AI 科學(xué)家都開始競(jìng)相討論和使用世界模型 (WM)這個(gè)詞。但是,世界模型 (WM)它真正含義、重要性以及它目前學(xué)術(shù)和行業(yè)應(yīng)用的發(fā)展階段確實(shí)鮮有能說明的。
所以,本文根據(jù)相關(guān)論文,專家信息總結(jié):
- 世界模型的概念基礎(chǔ)
- 世界模型歷史發(fā)展
- 當(dāng)前著名的世界模型- 谷歌 Google DeepMind DreamerV3?- 谷歌 Google DeepMind Genie 2?- 英偉達(dá) NVIDIA Cosmos 世界基礎(chǔ)模型?- Meta?V-JEPA 2
- 結(jié)論:世界模型為什么重要?
希望給大家?guī)硪恍┬畔⒑蛦l(fā)。
1.世界模型的概念基礎(chǔ)
其實(shí),人類的大腦并非處理世界中的每一個(gè)細(xì)微細(xì)節(jié)。相反,我們依賴過去經(jīng)驗(yàn)形成的抽象表征——心智模型——來指導(dǎo)我們的決策。即使在事件發(fā)生之前,我們的大腦也會(huì)根據(jù)這些模型和先前的行為不斷預(yù)測(cè)結(jié)果。這也可以用卡尼曼的《思考快與慢》中的直覺快系統(tǒng)理解。
這正是人工智能中世界模型背后的概念。
Yann LeCun 周三在巴黎 Viva Tech 大會(huì)表示:“世界模型就像是現(xiàn)實(shí)的抽象數(shù)字孿生,人工智能可以參考它來理解世界并預(yù)測(cè)其行為的后果,因此它能夠規(guī)劃行動(dòng)方案來完成給定的任務(wù)?!比斯ぶ悄茴I(lǐng)域的AI agent AI 代理也并非直接在現(xiàn)實(shí)世界中通過反復(fù)試驗(yàn)進(jìn)行學(xué)習(xí),而是使用“世界模型”(一種學(xué)習(xí)到的環(huán)境模擬)來想象和探索可能的動(dòng)作序列。
通過內(nèi)部模擬這些動(dòng)作,AI 能夠找到通往期望結(jié)果的路徑。這種方法具有顯著的優(yōu)勢(shì)。
首先,世界模型避免了所有可能的實(shí)際生活中的訓(xùn)練,從而大幅減少了所需的資源。更重要的是,它們使人工智能與人腦的實(shí)際運(yùn)作方式更加契合——預(yù)測(cè)、設(shè)想場(chǎng)景并計(jì)算結(jié)果。
Yann LeCun 也曾表示,世界模型對(duì)于實(shí)現(xiàn)人類水平的人工智能至關(guān)重要,盡管完全發(fā)揮其潛力可能需要大約十年的時(shí)間。所以,現(xiàn)在,不少公司包括自動(dòng)駕駛行業(yè)提出世界模型,但他們應(yīng)該都屬于早期的世界模型。當(dāng)前汽車和機(jī)器人行業(yè)用的世界模型可以用來做兩個(gè)任務(wù):
- 仿真環(huán)境的場(chǎng)景生成,生成不同的Corner case或者good case,使自己大模型訓(xùn)練更完善。Wayve的GAIA,英偉達(dá)的Cosmos(下文會(huì)講到)都屬于此類。
- 用世界模型進(jìn)行規(guī)劃和控制,在模型預(yù)測(cè)控制回路中進(jìn)行規(guī)劃,完成下游機(jī)器人操控任務(wù)。例如 Meta的?V-JEPA 2-AC(下文會(huì)講到),蔚來宣布的自動(dòng)駕駛NWM,按照道理也歸于此類。
前者的場(chǎng)景生成,應(yīng)該在汽車和機(jī)器人行業(yè)開始廣泛應(yīng)用,后者可能還處于實(shí)驗(yàn)室早期階段。
2.世界模型的歷史發(fā)展
雖然“世界模型”這一術(shù)語在過去幾年中逐漸流行,但其基本概念在早期的人工智能研究中就已經(jīng)有了。1990 年Richard S. Sutton 的 Dyna 算法,應(yīng)該是世界模型概念的早期起源。它是基于模型的強(qiáng)化學(xué)習(xí) model-based reinforcement learning(MBRL) 的一種基本方法,將模型學(xué)習(xí)與規(guī)劃和反應(yīng)相結(jié)合,因此使用 Dyna 算法的 Agent可以:
- 嘗試一些行動(dòng)并看看哪些有效(通過 RL 進(jìn)行反復(fù)試驗(yàn))。隨著時(shí)間的推移,學(xué)習(xí)世界的模型并構(gòu)建它來預(yù)測(cè)接下來可能發(fā)生的事情(學(xué)習(xí))。使用這種心理模型在“頭腦”中嘗試一些事情,而不必在現(xiàn)實(shí)世界中真正去做(計(jì)劃)。如果發(fā)生了什么事情,就根據(jù)已經(jīng)學(xué)到的知識(shí)立即做出反應(yīng)——每次都無需停下來計(jì)劃(快速反應(yīng))。
2018 年的一項(xiàng)后續(xù)研究名為“規(guī)劃形狀對(duì)高維狀態(tài)空間中 Dyna 式規(guī)劃的影響”,在 Arcade Learning Environment(街機(jī)學(xué)習(xí)環(huán)境)中測(cè)試了 Dyna式模型。Arcade Learning Environment 是Atari 2600 游戲的集合,用于從原始像素圖像訓(xùn)練 AI 代理。該研究首次表明,學(xué)習(xí)模型可以幫助提高在?Atari游戲等高維輸入環(huán)境中的學(xué)習(xí)效率,并表明 Dyna 是一種可行的規(guī)劃方法。
一個(gè)重要的里程碑是David Ha 和 Jürgen Schmidhuber在2018 年發(fā)表的論文《世界模型》。他們構(gòu)建了一個(gè)能夠在簡(jiǎn)單環(huán)境中實(shí)際運(yùn)行的系統(tǒng)。他們訓(xùn)練了一個(gè)生成式循環(huán)神經(jīng)網(wǎng)絡(luò)recurrent neural network (RNN),以無監(jiān)督的方式對(duì)流行的強(qiáng)化學(xué)習(xí)環(huán)境進(jìn)行建模,例如賽車游戲和 2D 第一人稱射擊類游戲。他們的世界模型學(xué)習(xí)了游戲畫面的壓縮空間表征以及游戲演變的時(shí)間動(dòng)態(tài)。更準(zhǔn)確地說,這個(gè)系統(tǒng)由三部分組成:
- Vision視覺:變分自動(dòng)編碼器 (VAE)將高維觀測(cè)值(像素圖像)壓縮為低維潛在表示。Memory記憶:混合密度循環(huán)網(wǎng)絡(luò) (MDN-RNN)根據(jù)當(dāng)前潛在狀態(tài)和代理的動(dòng)作預(yù)測(cè)下一個(gè)潛在狀態(tài)。Controller控制器:獲取潛在狀態(tài)和 RNN 隱藏狀態(tài)并輸出動(dòng)作。在最初的實(shí)現(xiàn)中,它是一個(gè)簡(jiǎn)單的線性策略,采用進(jìn)化策略進(jìn)行訓(xùn)練,以最大化獎(jiǎng)勵(lì)。
Ha 和 Schmidhuber 證明了策略(控制器)可以完全在學(xué)習(xí)模型的“夢(mèng)境”中進(jìn)行訓(xùn)練,然后成功遷移到真實(shí)的游戲環(huán)境中。這為構(gòu)建能夠像人類一樣做夢(mèng)、計(jì)劃和行動(dòng)的更智能的代理奠定了基礎(chǔ),并激發(fā)了人們對(duì)基于模型的方法的興趣。從那時(shí)起,很多事情都發(fā)生了變化。我們今天擁有什么?最新的世界模型是如何運(yùn)作的?它們理解物理世界嗎?讓我們來探索一下當(dāng)代世界模型結(jié)構(gòu)。
總而言之,世界模型是一種生成式人工智能系統(tǒng),它從各種輸入數(shù)據(jù)中學(xué)習(xí)現(xiàn)實(shí)世界環(huán)境的內(nèi)部表征,包括其物理特性、空間動(dòng)態(tài)特性和因果關(guān)系(至少是基本的因果關(guān)系)。它們利用這些學(xué)習(xí)到的表征來預(yù)測(cè)未來狀態(tài),在內(nèi)部模擬一系列動(dòng)作,并支持復(fù)雜的規(guī)劃和決策,而無需持續(xù)進(jìn)行現(xiàn)實(shí)世界的實(shí)驗(yàn)。NVIDIA 強(qiáng)調(diào)了構(gòu)建世界模型的以下組件:
- Data curation數(shù)據(jù)管理:數(shù)據(jù)管理對(duì)于順利訓(xùn)練世界模型至關(guān)重要,尤其是在處理大型多模態(tài)數(shù)據(jù)集時(shí)。它包括過濾、注釋、分類以及刪除重復(fù)的圖像或視頻,以確保數(shù)據(jù)質(zhì)量。在視頻處理中,這首先要對(duì)片段進(jìn)行分割和轉(zhuǎn)碼,然后應(yīng)用質(zhì)量過濾器。視覺語言模型會(huì)注釋關(guān)鍵元素,而視頻嵌入則有助于識(shí)別和刪除冗余內(nèi)容。
- Tokenization標(biāo)記化:將高維視覺數(shù)據(jù)分解為更小、更易于管理的單元,以加速學(xué)習(xí)。它減少了像素級(jí)冗余,并創(chuàng)建了緊湊的語義標(biāo)記,以實(shí)現(xiàn)高效的訓(xùn)練和推理。- 離散標(biāo)記化將視覺效果表示為整數(shù)。- 連續(xù)標(biāo)記化使用連續(xù)向量。
- Fine-tuning微調(diào):基于大型數(shù)據(jù)集訓(xùn)練的基礎(chǔ)模型可以針對(duì)特定的物理 AI 任務(wù)進(jìn)行調(diào)整。開發(fā)者可以從頭構(gòu)建模型,也可以使用額外數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。微調(diào)使模型在機(jī)器人、自動(dòng)化和其他實(shí)際用例中更加有效。-?Unsupervised fine-tuning無監(jiān)督微調(diào)使用未標(biāo)記的數(shù)據(jù)進(jìn)行更廣泛的概括。-?Supervised fine-tuning監(jiān)督微調(diào)利用標(biāo)記數(shù)據(jù)來關(guān)注特定任務(wù),增強(qiáng)推理和模式識(shí)別。
- Reinforcement Learning (RL)強(qiáng)化學(xué)習(xí) (RL):它通過讓推理模型在互動(dòng)中學(xué)習(xí),并根據(jù)動(dòng)作獲得獎(jiǎng)勵(lì)或懲罰來訓(xùn)練推理模型。這種方法有助于人工智能隨著時(shí)間的推移不斷調(diào)整、規(guī)劃和改進(jìn)決策。強(qiáng)化學(xué)習(xí)對(duì)于需要在動(dòng)態(tài)環(huán)境中具備復(fù)雜推理和響應(yīng)能力的機(jī)器人和自主系統(tǒng)尤其有用。
最近的一項(xiàng)綜合調(diào)查的論文“Advances and Challenges in Foundation Agents”總結(jié)了構(gòu)建人工智能世界模型的 4 種一般方法:
- Implicit models隱式模型:這類模型使用一個(gè)大型神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)未來結(jié)果,而無需區(qū)分世界的變化方式和觀察方式。這些框架允許智能體使用壓縮圖像和預(yù)測(cè)來“設(shè)想”未來的行動(dòng)。這個(gè)應(yīng)該在自動(dòng)駕駛機(jī)器人等 Physical AI領(lǐng)域應(yīng)用廣泛。
- Explicit models顯式模型:這些模型清晰地區(qū)分了世界的變化(狀態(tài)轉(zhuǎn)換)和智能體所見的內(nèi)容(觀察)。這使得系統(tǒng)更易于解釋,也更易于調(diào)試。
- Simulator-based models基于模擬器的模型:這些模型并非從零開始學(xué)習(xí),而是使用模擬器或真實(shí)環(huán)境來測(cè)試操作和結(jié)果。這種方法非常準(zhǔn)確,但速度慢且成本高昂。
- Hybrid and instruction-driven models混合模型和指令驅(qū)動(dòng)模型:這些模型將學(xué)習(xí)到的模型與外部規(guī)則、手冊(cè)或語言模型相結(jié)合。這種神經(jīng)預(yù)測(cè)和基于規(guī)則的指導(dǎo)相結(jié)合的方式,使模型在新情況下更加靈活。
以上就是世界模型的一些概念性認(rèn)知,接下來我們來看看當(dāng)前世界模型的最新案例。
3.當(dāng)前著名世界模型
Google DeepMind 的夢(mèng)想家或許最具影響力的一系列成果之一來自 Danijar Hafner 和 Google DeepMind 的同事,他們創(chuàng)建了 Dreamer 系列智能體。這款通用強(qiáng)化學(xué)習(xí)算法的最新版本(2025 年 4 月)DreamerV3可以使用相同的設(shè)置處理 150 多種不同的任務(wù),而無需針對(duì)每項(xiàng)任務(wù)進(jìn)行調(diào)整。然而,最重要的是,它是第一個(gè)在 Minecraft 中從零開始收集鉆石的算法,無需任何人類示例的幫助,僅使用自身的“想象力”和默認(rèn)設(shè)置。這不僅是強(qiáng)化學(xué)習(xí)的成就,也是世界模型的成就。
DreamerV3學(xué)習(xí)世界模型,并利用它來想象接下來可能發(fā)生的情況,從而找出更好的行動(dòng)方式。以下是該系統(tǒng)的具體工作原理:DreamerV3由3個(gè)部分組成:
- 世界模型——獲取 Agent代理所看到的內(nèi)容,例如圖像或數(shù)字輸入,并使用循環(huán)神經(jīng)網(wǎng)絡(luò) ( RNN ),特別是循環(huán)狀態(tài)空間模型 (RSSM),將其壓縮為更簡(jiǎn)單的潛在表征。這有助于模型保留過去事件的記憶,并更好地預(yù)測(cè)未來狀態(tài)。給定一個(gè)動(dòng)作,該模型可以預(yù)測(cè)下一個(gè)狀態(tài)、預(yù)期獎(jiǎng)勵(lì)以及該場(chǎng)景是否繼續(xù)。(注:與許多最近的 AI 架構(gòu)不同,DreamerV3不使用 Transformer,而是完全專注于 Recurrent models循環(huán)模型。)
- DreamerV3 在此介紹了幾項(xiàng)智能增強(qiáng)功能:-?KL divergence KL 散度衡量預(yù)測(cè)與現(xiàn)實(shí)的差異程度——就像一個(gè)“現(xiàn)實(shí)檢驗(yàn)”。如果預(yù)測(cè)不準(zhǔn)確,模型就會(huì)進(jìn)行相應(yīng)的調(diào)整。-?Free bits空閑位有助于防止模型過度修正細(xì)微的誤差。可以理解為:“如果已經(jīng)足夠好了,就不要再浪費(fèi)精力去追求完美了。”-?Symlog encoding Symlog 編碼將現(xiàn)實(shí)世界中的大量正負(fù)信號(hào)(例如獎(jiǎng)勵(lì)和像素值)壓縮為可管理的數(shù)字范圍,幫助系統(tǒng)穩(wěn)定學(xué)習(xí)。-?Two-hot encoding 雙熱編碼將學(xué)習(xí)目標(biāo)分散到兩個(gè)相鄰的類別中,從而平滑預(yù)測(cè)并使學(xué)習(xí)過程更容易、更穩(wěn)定。Critic 評(píng)價(jià)器——評(píng)估世界模型所設(shè)想結(jié)果的好壞。由于獎(jiǎng)勵(lì)可能存在巨大差異,DreamerV3 采用了謹(jǐn)慎的規(guī)范化和基于分布的評(píng)分方法,即使在獎(jiǎng)勵(lì)稀疏或不可預(yù)測(cè)的情況下也能確保穩(wěn)定的性能。它還采用了參數(shù)的移動(dòng)平均值來進(jìn)一步穩(wěn)定學(xué)習(xí)。Actor——根據(jù)世界模型和評(píng)價(jià)器提供的洞察來決定最佳行動(dòng),平衡即時(shí)獎(jiǎng)勵(lì)和新策略的探索,避免陷入困境。DreamerV3 會(huì)仔細(xì)規(guī)范預(yù)測(cè)回報(bào),即使在獎(jiǎng)勵(lì)稀少的情況下也能保持平衡的探索。
Google DeepMind 的 Genie 2谷歌 DeepMind 在世界模型領(lǐng)域取得的另一個(gè)有趣進(jìn)展是Genie 2,它能夠?yàn)榫呱碇悄荏w生成多樣化的訓(xùn)練環(huán)境。Genie 2 只需一張圖像,即可創(chuàng)建可操作的虛擬世界,并通過鍵盤和鼠標(biāo)控制,供人類和 AI 系統(tǒng)使用。它支持長(zhǎng)時(shí)域記憶、一致的世界生成以及從共享起點(diǎn)進(jìn)行的反事實(shí)模擬。該模型展示了一些新興能力,例如:
- 處理角色的移動(dòng)模擬物理動(dòng)力學(xué)(重力、光照、反射),也就是應(yīng)用真實(shí)物理世界的規(guī)則。建模與物體和非玩家角色(NPC)的交互與 SIMA 等代理配對(duì)后,Genie 2 可以生成新的 3D 場(chǎng)景來測(cè)試指令遵循情況,使代理能夠使用自然語言命令在新環(huán)境中導(dǎo)航和行動(dòng)。
Genie 2 內(nèi)部有什么可以幫助它實(shí)現(xiàn)這一點(diǎn)?Genie 2 是一個(gè)自回歸潛在擴(kuò)散模型( autoregressive latent diffusion model),它在大型視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,并逐幀生成視頻。其流程如下:
- Genie 2 使用自動(dòng)編碼器將視頻幀壓縮到潛在空間?;?Transformer 的自回歸模型根據(jù)先前的幀和代理的動(dòng)作來預(yù)測(cè)下一個(gè)潛在幀。應(yīng)用潛在擴(kuò)散過程來從潛在預(yù)測(cè)中改進(jìn)并生成真實(shí)的視頻幀。將潛在信息解碼為視覺框架。
這種架構(gòu)使 Genie 2 能夠在低維潛在空間中運(yùn)行,并隨時(shí)間響應(yīng)用戶或代理的輸入,并生成逼真且一致的視頻輸出。因此,它為構(gòu)建能夠適應(yīng)復(fù)雜虛擬世界中各種任務(wù)的通用系統(tǒng)提供了潛力。NVIDIA 的 Сosmos World Foundation 模型這個(gè)模型是我們之前文章分享過不少,NVIDIA 對(duì)世界模型的貢獻(xiàn)不容低估。這個(gè)模型主要用于自動(dòng)駕駛機(jī)器人?Physical AI領(lǐng)域,并將重心轉(zhuǎn)向構(gòu)建完整的模塊化生態(tài)系統(tǒng),即?Cosmos 世界基礎(chǔ)模型 (WFM) 平臺(tái),旨在訓(xùn)練、模擬和應(yīng)用基于視頻的 Physical AI 世界模型。該平臺(tái)包括三個(gè)主要模型系列,每個(gè)模型系列在實(shí)現(xiàn)豐富的視覺世界理解、模擬和推理方面發(fā)揮著獨(dú)特但互補(bǔ)的作用。
- Cosmos-Predict1:它模擬視覺世界隨時(shí)間的變化。它從超過 1 億個(gè)視頻片段中學(xué)習(xí)到通用的物理世界動(dòng)態(tài),并可以使用較小的數(shù)據(jù)集針對(duì)特定任務(wù)進(jìn)行微調(diào),以便通過文本、動(dòng)作或攝像頭輸入進(jìn)行控制。有兩種類型的模型:-?Diffusion models擴(kuò)散模型(如 Cosmos-Predict1-7B-Text2World):通過對(duì)潛在空間中的噪聲進(jìn)行去噪,從文本生成視頻。-?Autoregressive models自回歸模型(例如,Cosmos-Predict1-13B-Video2World):類似于 GPT,根據(jù)先前上下文逐個(gè)標(biāo)記地生成視頻。
- Cosmos-Transfer1:它直接構(gòu)建于 Cosmos-Predict1 之上,并通過強(qiáng)大的自適應(yīng)多模態(tài)控制對(duì)其進(jìn)行了擴(kuò)展。Cosmos-Transfer1 允許用戶使用多種空間控制信號(hào)(例如分割圖、深度圖、邊緣圖、模糊視覺輸入、高清地圖和激光雷達(dá)數(shù)據(jù))來引導(dǎo)世界生成。為了有效處理不同的輸入,NVIDIA為每種模態(tài)添加了單獨(dú)的 ControlNet 分支,例如一個(gè)用于深度,一個(gè)用于邊緣等等。這些控制分支獨(dú)立訓(xùn)練,以提高內(nèi)存效率和靈活性。它還允許進(jìn)行細(xì)粒度控制——例如,強(qiáng)調(diào)前景中的邊緣以呈現(xiàn)物體細(xì)節(jié),或強(qiáng)調(diào)背景中的深度以呈現(xiàn)幾何形狀。Cosmos-Transfer1 使用時(shí)空控制圖來動(dòng)態(tài)地為跨空間和時(shí)間的不同輸入分配權(quán)重。因此,Cosmos-Transfer1 可以在 5 秒內(nèi)生成 5 秒 720p 視頻,實(shí)現(xiàn)實(shí)時(shí)推理。
- Cosmos-Reason1:該模型系列(提供 8B 和 56B 兩種參數(shù)大?。┗诂F(xiàn)實(shí)世界的物理和環(huán)境動(dòng)力學(xué),推理正在發(fā)生的事情、接下來會(huì)發(fā)生什么以及哪些行動(dòng)是可行的。Cosmos-Reason1 使用 Predict1 的模擬世界和 Transfer1 的精細(xì)視覺效果來做出明智的決策,從而完善 NVIDIA 物理 AI 系統(tǒng)的循環(huán)。它圍繞兩大推理支柱:-?Physical common sense物理常識(shí):關(guān)于空間、時(shí)間、物體永久性、物理學(xué)等的一般知識(shí)。
- -?Embodied reasoning具身推理:在物理約束(機(jī)器人、人類、自動(dòng)駕駛汽車)下的基于代理的決策。有趣的是,Cosmos-Reason1 使用針對(duì)長(zhǎng)序列推理優(yōu)化的混合 Mamba-MLP-Transformer 。
- 他們?yōu)槭裁匆巡煌募軜?gòu)放在一起?這里之所以使用它們,是因?yàn)椋?)Mamba擅長(zhǎng)捕捉長(zhǎng)距離依賴關(guān)系——這提升了效率;2)Transformer 模塊提供完全自注意力機(jī)制,這對(duì)于短距離依賴關(guān)系和高級(jí)抽象至關(guān)重要,從而提升了精度;3)最后,MLP(多層感知器)層在 Mamba 層和 Transformer 層之間提供了強(qiáng)大的非線性轉(zhuǎn)換。它們有助于穩(wěn)定學(xué)習(xí),并成為信息整合的瓶頸,尤其是在跨模態(tài)(視頻 + 文本)整合方面——這是為了靈活性而設(shè)計(jì)的。
作為輸出,Cosmos-Reason1 生成具有?Chain-of-Thought (CoT 鏈?zhǔn)剿季S)??解釋和最終操作的自然語言,如上圖所示??傮w而言,Cosmos-Predict1、Cosmos-Transfer1 和 Cosmos-Reason1 構(gòu)成了物理 AI 的集成基礎(chǔ):
- Predict1 模擬現(xiàn)實(shí)世界動(dòng)態(tài),Transfer1 支持跨模態(tài)的細(xì)粒度可控視頻生成,Reason1 則對(duì)物理世界進(jìn)行解讀和推理,從而做出具身決策。
它們共同構(gòu)建了一個(gè)統(tǒng)一的管道,賦能智能代理,使其能夠觀察、生成并推理復(fù)雜的現(xiàn)實(shí)世界環(huán)境。最后,我們來看另一個(gè)人工智能巨頭 Meta 的世界模型。Meta 的 V-JEPA 2Meta 和世界模型,是其首席人工智能科學(xué)家 Yann LeCun正在倡導(dǎo)世界模型。他認(rèn)為,未來十年邁向人類水平的人工智能之路將依賴于開發(fā)能夠進(jìn)行推理和規(guī)劃的世界模型。因此,Meta 的?Facebook AI Research (FAIR)?也轉(zhuǎn)向開發(fā)世界模型,以更快地解鎖其全部視角。
在2025年6月,Meta宣布 V-JEPA 2 (Video Joint Embedding Predictive Architecture 2)正式發(fā)布。這是首個(gè)基于視頻訓(xùn)練的世界模型,它能夠?qū)崿F(xiàn)最先進(jìn)的理解和預(yù)測(cè)能力,以及在新環(huán)境中進(jìn)行零樣本規(guī)劃和機(jī)器人控制。V-JEPA 2 利用 100 萬小時(shí)的互聯(lián)網(wǎng)規(guī)模視頻和 100 萬張圖像,Meta團(tuán)隊(duì)使用視覺掩模去噪目標(biāo)對(duì) V-JEPA 2 視頻模型進(jìn)行了預(yù)訓(xùn)練,并通過將該模型與 LLM 主干模型對(duì)齊,將其用于動(dòng)作分類、物體識(shí)別、動(dòng)作預(yù)測(cè)和視頻問答等下游任務(wù)。預(yù)訓(xùn)練之后,還可以凍結(jié)視頻編碼器,并在學(xué)習(xí)到的表征基礎(chǔ)上,僅使用 62 小時(shí)的機(jī)器人數(shù)據(jù)進(jìn)行訓(xùn)練就能構(gòu)建出一個(gè)可用于規(guī)劃和控制的模型?V-JEPA 2-AC,在模型預(yù)測(cè)控制回路中進(jìn)行規(guī)劃,完成下游機(jī)器人操控任務(wù)。
V-JEPA 2 采用聯(lián)合嵌入預(yù)測(cè)架構(gòu) (JEPA) 構(gòu)建,包含兩個(gè)主要組件:
- 編碼器,接收原始視頻并輸出嵌入,以捕獲有關(guān)觀察世界狀態(tài)的有用語義信息。?預(yù)測(cè)器,它接受視頻嵌入和關(guān)于要預(yù)測(cè)的內(nèi)容的附加上下文,并輸出預(yù)測(cè)的嵌入。
相比V-JEPA 1他的核心是10億參數(shù)的 ViT(Vision Transformer),采用增強(qiáng)空間分辨率 ( 256 → 384 ) 和時(shí)間持續(xù)時(shí)間 ( 16 → 64 幀)的視頻數(shù)據(jù)訓(xùn)練。所有這些方面使得?V-JEPA?成為構(gòu)建世界模型的前瞻性工具。
4.世界模型為什么重要?
前面,我們已經(jīng)介紹了許多先進(jìn)的世界模型,例如 Google DeepMind 的 DreamerV3 和 Genie 2、三款 NVIDIA Cosmos WFM 以及 Meta 的V-JEPA,每個(gè)模型都有不同的骨干架構(gòu)和工作原理。在這個(gè)領(lǐng)域還有更多值得探討的內(nèi)容。雖然已經(jīng)取得了許多成就,但世界模型的發(fā)展才剛剛起步。例如,我們熱切期待這些巨頭以及李飛飛的世界實(shí)驗(yàn)室還能發(fā)明什么,以充分釋放此類模型和 spatial intelligence空間智能的潛力。
然而,這肯定需要時(shí)間。我們甚至可以說,世界模型的發(fā)展階段與 Agent代理的發(fā)展階段有些相似。這也是因?yàn)?,?duì)于物理人工智能而言,它們彼此不可或缺?,F(xiàn)在我們可以回答的主要問題是:世界模型為什么重要?它們解鎖了人工智能的幾個(gè)關(guān)鍵功能:
- Planning and decision making規(guī)劃與決策:借助世界模型,代理可以通過“想象”不同行動(dòng)策略的未來狀態(tài)序列并選擇最佳方案來進(jìn)行規(guī)劃。這正是基于模型的強(qiáng)化學(xué)習(xí)的精髓,它能夠?qū)崿F(xiàn)高瞻遠(yuǎn)矚的決策,并提前規(guī)劃好許多步驟。在我們熟悉的自動(dòng)駕駛和人形機(jī)器人中可以用來算法控車。Efficiency效率:在現(xiàn)實(shí)世界(或模擬器)中通過反復(fù)試驗(yàn)進(jìn)行學(xué)習(xí)可能成本高昂或速度緩慢。世界模型允許智能體從模擬經(jīng)驗(yàn)中學(xué)習(xí)(一種“心理練習(xí)”),從而顯著減少所需的現(xiàn)實(shí)世界交互。在我們熟悉的自動(dòng)駕駛和人形機(jī)器人中可以高性價(jià)比的來虛擬訓(xùn)練算法。Generalization and flexibility泛化和靈活性:一個(gè)好的世界模型能夠捕捉環(huán)境的普遍屬性,從而幫助智能體適應(yīng)新的情境。通過理解底層動(dòng)態(tài),智能體能夠通過模型推理,處理訓(xùn)練中從未明確遇到的情況。由于世界模型可以比語言模型吸收更多的原始信息(例如視頻流),因此它們有可能提供更豐富的現(xiàn)實(shí)基礎(chǔ)。邁向通用智能:許多研究人員將世界模型視為邁向更通用的人工智能認(rèn)知的基石。它們賦予人工智能系統(tǒng)一種“想象力”和對(duì)世界運(yùn)作方式的直覺理解——這是獲得類似人類的常識(shí)、推理和解決問題能力的先決條件。
“我們需要能夠理解世界的機(jī)器;能夠記住事物的機(jī)器;具有直覺、常識(shí)的機(jī)器;能夠像人類一樣進(jìn)行推理和規(guī)劃的機(jī)器?!?/p>
Yann Le Cun
世界模型讓數(shù)字世界的Agent理解世界的物理法則,但是世界模型仍然缺少因果人工智能 (Causal AI)的整合。我們將在以后文章中分享和探討這個(gè)引人入勝的話題——它目前主要集中在學(xué)術(shù)界或利基行業(yè),但對(duì)于實(shí)現(xiàn)通用人工智能 (AGI) 卻至關(guān)重要。
參考文章以及圖片
什么是世界模型? -?Alyona Vert.
GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving - wayve
Cosmos World Foundation Model Platform for Physical AI - 英偉達(dá)
V-JEPA 2:自監(jiān)督視頻模型實(shí)現(xiàn)理解、預(yù)測(cè)和規(guī)劃 - meta
全球自動(dòng)駕駛模型: 初步調(diào)查 -?Yanchen Guan?, Haicheng Liao?, Zhenning Li?, Jia Hu?,Runze Yuan, Yunjian Li, Guohui Zhang,and Chengzhong Xu, Fellow, IEEE
*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-獲取本文參考資料方式:
加入我們的知識(shí)星球可以下載公眾號(hào)海量參考資料包含以上參考資料。