• 正文
    • 1.為什么 VLA呢?
    • 2.VLA 怎么樣的結(jié)構(gòu)?
    • 3.?VLA 怎么起源的?
    • 4. VLA 還在哪里廣泛研究和應(yīng)用?
    • 6.寫在最后
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

一文看懂視覺語言動作模型(VLA)及其應(yīng)用

06/12 16:51
641
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

VLA 應(yīng)該是自動駕駛以及機器人產(chǎn)業(yè)前沿最熱的 AI人工智能詞語。我們之前文章《2025年,自動駕駛即將開“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》也分享和預(yù)言過它是自動駕駛大模型2.0。

那其實到今天,理想 VLA應(yīng)該要上車了,小鵬也發(fā)布下一代圖靈芯片的車型要上 VLA,基本上所有用英偉達 Thor 超過500Tops的大算力芯片都會切換到 VLA這個算法概念上。

    • VLA 在當前國內(nèi)外自動駕駛的應(yīng)用情況?
      VLA 還在哪里廣泛研究和應(yīng)用?
      為什么 VLA呢?VLA 怎么樣的結(jié)構(gòu)?VLA 怎么起源的?

本文通過自己的行業(yè)認知,結(jié)合各個 VLA Paper 來做一個科普,希望給大家?guī)硪恍┬畔⒑蛦l(fā)。

1.為什么 VLA呢?

VLA 除了大算力需求這個缺點,其他都是優(yōu)點。

通過預(yù)訓(xùn)練提高數(shù)據(jù)效率:VLA 模型可以使用視覺-語言對(例如,圖像和字幕或教學(xué)視頻)在大規(guī)模互聯(lián)網(wǎng)或模擬數(shù)據(jù)集上進行預(yù)訓(xùn)練,從而減少對特定任務(wù)數(shù)據(jù)的依賴。例如自動駕駛可能不要再講你有1000萬clips數(shù)據(jù),這些數(shù)據(jù)可能都是重復(fù)和無效的。

VLA 這種預(yù)訓(xùn)練有助于引導(dǎo)其功能,使其能夠以極少的微調(diào)很好地推廣到下游任務(wù)中。更好的人類指令交互:可以聽懂人類的語言,看懂人類的環(huán)境,VLA 模型可以解釋和執(zhí)行人類的指令,例如“前面紅綠燈路口左轉(zhuǎn)”或“開進前面的停車場”,這是從手動編碼的動作策略或符號規(guī)劃管道進行的范式轉(zhuǎn)變。

端到端大模型統(tǒng)一訓(xùn)練:VLA 模型本質(zhì)上也是一種端到端算法,它將感知、任務(wù)理解和控制合成一個整體模塊,對場景、目標和行動方式進行聯(lián)合推理。這種整體方法提高了魯棒性并簡化了系統(tǒng)設(shè)計。

跨領(lǐng)域和跨平臺泛化:視覺和語言的共享嵌入空間使單個模型能夠跨任務(wù)、對象和機器人實例遷移知識。這也就是當前不少新勢力車企既能造車也能造機器人,采用VLA算法架構(gòu)和設(shè)施都可以泛化。簡而言之,VLA 模型為構(gòu)建能夠在多樣化和動態(tài)的現(xiàn)實環(huán)境中理解和執(zhí)行任務(wù)的通用機器人包括自動駕駛奠定了良好的基礎(chǔ),使其成為下一代具身人工智能。

2.VLA 怎么樣的結(jié)構(gòu)?

當前自動駕駛也好,機器人也罷,他們執(zhí)行的任務(wù)都需要融合視覺和語言信號,以理解空間關(guān)系、預(yù)測駕駛/行動意圖并生成情境感知的駕駛或者行為。

一般 VLA需要包含以下三個結(jié)構(gòu):

    視覺編碼器(例如 CNN、ViT、CLIP),對場景中的物體(例如道路、車輛、行人)進行分割和分類,將像素轉(zhuǎn)換為概念Token化。語言模型(例如Deepseek、LLaMA-2、阿里巴巴的 Qwen類別LLM、Transformer),將指令編碼為高維嵌入,推理給出高階的意圖策略模塊或規(guī)劃器(Policy modules or Planners),使車輛能夠推理高級目標并將其轉(zhuǎn)化為低階精細化的運動。

這些模型通常采用多模態(tài)融合技術(shù)(例如交叉注意、級聯(lián)嵌入或標記統(tǒng)一),以將視覺類信息與文本指令對齊。與傳統(tǒng)的視覺運動流程不同,VLA 支持語義基礎(chǔ),從而實現(xiàn)情境感知推理、可供性檢測和時間規(guī)劃。

典型的 VLA 模型通過攝像頭激光雷達傳感器數(shù)據(jù)觀察環(huán)境,可以解讀用語言表達的目標(例如“前方右轉(zhuǎn)”),并輸出高階(例如左轉(zhuǎn))或者低階的精細化運動序列(例如方向2度,前進2m等)。

3.?VLA 怎么起源的?

VLA 模型的概念形成于 2021-2022 年左右,由 Google DeepMind 的 Robotic Transformer 2 (RT-2) 等項目開創(chuàng)。提出了一種變革性架構(gòu),將感知、推理和控制統(tǒng)一在一個框架內(nèi)。

VLA 集成了視覺輸入、語言理解和運動控制功能,使具身智能體能夠感知周圍環(huán)境、理解復(fù)雜指令并動態(tài)執(zhí)行適當?shù)膭幼鳌LA 一詞最早出現(xiàn)在 Google RT-2論文中,該論文使用 PaLI-X 和 PaLM-E 作為將“像素轉(zhuǎn)化為動作”的主干。

隨著Google RT-2論文的爆火和引用,VLA也被廣泛傳播。

4. VLA 還在哪里廣泛研究和應(yīng)用?

VLA應(yīng)該是在機器人行業(yè)發(fā)展更迅速,畢竟當前機器人產(chǎn)業(yè)創(chuàng)業(yè)和實驗成本都低于汽車。所以,我們從機器人產(chǎn)業(yè)的相關(guān)研究來看看 VLA應(yīng)用的發(fā)展。截至 2025 年本文發(fā)布時間,業(yè)內(nèi)認為,比較先進的視覺語言動作模型 (VLA)采用的是雙層專家系統(tǒng),結(jié)合 VLM 和Diffusion擴散解碼器。

這兩個專家系統(tǒng)共同模仿了丹尼爾·卡尼曼的雙重過程理論,將高級規(guī)劃與低級快速執(zhí)行相結(jié)合。

    專家系統(tǒng) 2(“慢思考”):視覺語言模型( VLM ) 將視覺和文本作為上下文,對其所見的復(fù)雜場景和中間任務(wù)做出方法論決策。由于其對機器人世界的出色理解,這可以指導(dǎo)機器人的整體行為。它充當高級規(guī)劃器,通過對多模態(tài)輸入進行推理,深入到多個中間子任務(wù)并生成軌跡,從而實現(xiàn)其主要目標。
    專家系統(tǒng) 1(“快速思考”):Transformer 解碼器或Diffusion擴散模型充當?shù)图壙刂坪挽`巧運動的動作專家。擴散模型具有豐富的圖像先驗知識,該系統(tǒng)利用其卓越的語義場景關(guān)系,翻譯并執(zhí)行系統(tǒng) 1 的引導(dǎo)路徑或指令,從而執(zhí)行敏捷且精細的運動動作。

例如Nvidia Groot N1和FigureAI 的 Helix,采用此類策略Nvidia 發(fā)布的 GR00T N1 是通用人形推理和控制的開放基礎(chǔ)模型。N1 是一個 2B 參數(shù)模型(eagle2_hg_model主干),基于 Omniverse 和 Cosmos 的海量合成數(shù)據(jù)以及人形機器人數(shù)據(jù)集的真實捕獲數(shù)據(jù)進行訓(xùn)練,該預(yù)訓(xùn)練策略可以無縫適配跨實體系統(tǒng)。在?GR00T N1中環(huán)境感知、語言指令和機器人狀態(tài)被編碼為標記,并傳遞給系統(tǒng) 2 和系統(tǒng) 1,以預(yù)測可以直接控制機器人的動作標記。規(guī)劃器將長期目標(例如“清理桌子”)解析為原子子任務(wù),而低級控制器則確保實時執(zhí)行。

    系統(tǒng) 2: VLM 通過推理來規(guī)劃正確的行動,用視覺和語言指令解釋物理世界。系統(tǒng) 1:Diffusion Transformer 擴散變壓器,遵循系統(tǒng) 2 的指令,通過去噪以 120Hz 產(chǎn)生有意義的平滑和精確的運動動作,延遲為 10 毫秒。

Figure AI?的?Helix?類似,該系統(tǒng)由兩個主要部分組成即,

    S2 是 VLM 主干,是一種較慢的思維模型,可以處理場景的視覺線索和語義目標,S2 基于一個擁有 7B 參數(shù)的開源、開放權(quán)重 VLM 構(gòu)建。S1 是一種以 200Hz 運行的快速模型,能夠快速適應(yīng)伙伴機器人的實時動作,S1 是一個 80M 參數(shù)的交叉注意力編碼器-解碼器 Transformer,負責處理低級控制。它依賴于一個全卷積、多尺度視覺主干網(wǎng)絡(luò)進行視覺處理,該主干網(wǎng)絡(luò)由完全在模擬環(huán)境中完成的預(yù)訓(xùn)練初始化。

雖然 S1 接收與 S2 相同的圖像和狀態(tài)輸入,但 S1以更高的頻率處理它們,以實現(xiàn)響應(yīng)更快的閉環(huán)控制。來自 S2 的潛在向量被投影到 S1 的標記空間中,并沿著序列維度與 S1 視覺主干網(wǎng)絡(luò)中的視覺特征連接起來,從而提供任務(wù)調(diào)節(jié)。Helix 的訓(xùn)練方式是,它映射視覺場景和文本命令的原始像素,以產(chǎn)生具有標準回歸損失的連續(xù)動作。

此外,比較早期和學(xué)術(shù)的 VLA模型有:OpenVLA

它由四個主要部分組成:

    • 視覺編碼器:采用雙視覺編碼器方法,結(jié)合 DINOv2(約 3 億參數(shù))和 SigLIP(約 4 億參數(shù)),接收圖像并創(chuàng)建嵌入的扁平化塊。DINOv2 擅長處理空間關(guān)系,而 SigLIP 則提供強大的語言對齊特性。
    • 投影:使用 MLP 投影將視覺嵌入映射到 LLM 的共享嵌入空間中。LLM:Llama2 7B 模型接收語言指令并進行標記化。視覺嵌入和文本標記一起作為序列傳遞給 LLM,以生成諸如位置、旋轉(zhuǎn)和夾持器狀態(tài)變化等動作,這些動作可直接用作連續(xù)信號來控制機器人的末端執(zhí)行器。動作解碼:動作解碼給執(zhí)行器執(zhí)行。

谷歌的 Robotic Transformer (RT-2)它由預(yù)訓(xùn)練的 PaLI-X (55B) 作為視覺模型,以及 PaLM-E (12B) 作為主干模型,并與視覺數(shù)據(jù)和加權(quán)后的機器人動作數(shù)據(jù)共同訓(xùn)練。它接收機器人的攝像頭輸入(圖像)和 NLP 查詢,并輸出離散的動作 token。這些 token 隨后被去 token 化,生成基于代碼的指令,這些指令可以控制機器人

Physical Intelligence的?π?π?推出的用于通用機器人控制的基礎(chǔ)視覺-語言-動作流?VLA模型,此?VLA 模型在圖像和文本標記的末尾附加了額外的動作和狀態(tài)標記,類似于把Detoken也組合進來了,它包含:

    一個約 30 億預(yù)訓(xùn)練的 Paligemma VLM 模型作為基礎(chǔ)骨干,一個 3 億的擴散模型作為基于 π 跨實體機器人數(shù)據(jù)集訓(xùn)練的動作專家。

伯克利的SuSIESuSIE(SUbgoal Synthesis via Image Editing (SuSIE))更是一絕了,他采用的方法是通過將圖片“編輯”成一個有意義的子目標,然后使用低級目標達成策略來實現(xiàn)該子目標來執(zhí)行該命令。

    首先利用一個簡單的圖像生成模型,根據(jù)給定目標來生成未來狀態(tài)圖片。然后執(zhí)行機構(gòu)依靠低級策略來確定精確的運動驅(qū)動,完成機器動作。

顯然在機器人的產(chǎn)業(yè)和學(xué)術(shù)界 VLA做了很多的探索,那么當前汽車界使用的呢?5.VLA 在當前自動駕駛的應(yīng)用情況?最早在汽車智能駕駛上應(yīng)用 VLA的應(yīng)該是英國自動駕駛創(chuàng)業(yè)公司W(wǎng)ayve,他在 2023 年 9 月推出的 LINGO-1算法就在自動駕駛上應(yīng)用了 VLM,他可以生成連續(xù)的評論,解釋駕駛行為背后的原因。這可以幫助用戶用自然語言理解自動駕駛模型正在關(guān)注什么以及它正在做什么。到了2024年3月份,Wayve就發(fā)布了其 VLA模型 LINGO-2。

目前 Wayve已經(jīng)和 Uber合作在美國和英國部署L4 robotaxi。日產(chǎn)將在2027年基于Wayve的技術(shù)推出下一代ProPilot智能輔助駕駛。另外一家推出過類似 VLA概念的就是Google自動駕駛公司W(wǎng)aymo。Waymo的EMMA,是Waymo在2024年10月發(fā)布的一個探索項目論文,應(yīng)該沒有批量應(yīng)用。

在中國這邊跟特別緊的就是理想汽車了,走了類似于Wayve的路。理想汽車在2024年2月份左右推出VLM論文,緊接著大概7月份宣發(fā)上車。到了年底開始推出VLA相關(guān)論文,然后將會在2025年7月基于英偉達Thor以及雙Orin平臺上市 VLA新的智能輔助駕駛。具體了解理想的VLA可以查看之前文章《理想智駕的VLA模型及其結(jié)構(gòu)》.

小鵬在最近發(fā)布的G7已經(jīng)明確表示采用 VLA,但具體實現(xiàn)形式不清楚,不過通過其發(fā)布的720億(72B)云端算法架構(gòu)圖,顯然這是一個 云端VLA的架構(gòu),未來估計可以蒸餾成一個車端 VLA模型放到車端芯片上。

根據(jù)小鵬6月12 G7發(fā)布會上宣布的信息,小鵬智能駕駛采用三塊圖靈芯片共計2200Tops的算力,支持車端 VLA+VLM 的架構(gòu)。其實可以瞄一眼上圖理想的VLA架構(gòu),兩家應(yīng)該趨同了,不同點是理想的 VLM是放在云端,小鵬憑借大算力芯片將 VLM放在了車端。

華為在年初發(fā)布的ADS 4.0采用的WEWA,總體上是宣布華為到了端到端,WE 世界引擎也就是世界模型的一個應(yīng)用,用于生成虛擬驗證的場景。WA應(yīng)該是一個端到端的范式,華為目前應(yīng)該缺少跑VLA的芯片。

6.寫在最后

VLA采用視覺信息,語言信息結(jié)合,基本上就是類人的仿生,人類也就是采用這類方式與物理世界交互。所以?VLA就是解決 Physical AI而生,自動駕駛以及機器人都是Physical AI最大的落地應(yīng)用,自動駕駛以及機器人產(chǎn)業(yè),他們的人工智能算法邏輯,儲能以及運動電機等核心零部件類似,所以,做智能汽車的基本上也會做人形機器人了。

那么是不是 VLA需要自研呢?

其實至少里面的 LLM大語言模型肯定不需要自研的,畢竟一個LLM是一個人工智能的基礎(chǔ)范疇,不需要也沒必要重新發(fā)明輪子。目前已知國外自動駕駛或者機器人基本用Open AI、Meta、Google的LLM; 國內(nèi)汽車界理想和小鵬應(yīng)該通用采用Deepseek或者阿里的Qwen。最終大家都是利用人工智能模型組合好自己的 VLA,進行落地應(yīng)用。不過最后,提醒,先進的技術(shù)≠ 好的產(chǎn)品體驗。

參考文章以及圖片

SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment - wayve

ZERO-SHOT ROBOTIC MANIPULATION WITH PRETRAINED IMAGE-EDITING DIFFUSION MODELS - University of California, Berkeley 2Stanford University 3Google DeepMind

π0:用于通用機器人控制的視覺-語言-動作流模型 - Physical Intelligence

ORION:基于視覺語言指導(dǎo)動作生成的整體端到端自動駕駛框架 - Huazhong University of Science and Technology, 2 Xiaomi EV

HybridVLA: 統(tǒng)一視覺-語言-動作模型中的協(xié)同擴散和自回歸.pdf - 1State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University; 2Beijing Academy of Artificial Intelligence (BAAI); 3CUHK

視覺-語言-行動模型:概念、進展、應(yīng)用與挑戰(zhàn).pdf - aCornell University, Biological & Environmental Engineering, Ithaca, New York, USA bThe Hong Kong University of Science and Technology, Department of Computer Science and Engineering, Hong Kong cUniversity of the Peloponnese, Department of Informatics and Telecommunications, Greece

全球自動駕駛模型綜述 - Tuo Feng, Wenguan Wang, Senior Member, IEEE, Yang Yi, Senior Member, IEEE

*未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-獲取本文參考資料方式:

加入我們的知識星球可以下載公眾號海量參考資料包含以上參考資料。

相關(guān)推薦