• 正文
  • 相關推薦
申請入駐 產業(yè)圖譜

理想智駕的VLA模型及其結構

04/25 14:33
565
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

我們之前文章《2025年,自動駕駛即將開“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》分享過VLA,現在,不少公司已經宣稱會在2025年下半年都會推出此類模型結構。

理想算是比較早喊出使用VLA模型做智能駕駛的公司,VLA將感知(3D編碼器)、推理(語言模型)、決策(擴散策略)整合為單一可訓模型,也就是端到端大模型的一種。同時理想表示,他的VLA將同時支持外部多模態(tài)的交互,例如駕駛員的語音交互,周邊指定的視覺輸入,實現智駕聽得懂,看得見,找得到。

所以,本文將通過理想相關信息來拆解分享理想智駕VLA算法。理想VLA模型架構的四大核心模塊:

    V-Spatial Intelligence,通過汽車傳感器輸入的信息,將感知和自車模態(tài)3D建模,形成開車的環(huán)境和自我的理解,并將這些信息token化。L–Linguistic Intelligence,大語言模型,這個大語言模型基本上就是目前AI的token everyting,token就是AI的語言,其他外部輸入,例如駕駛員語言控制也token化,統(tǒng)一進行類似于語言的推理。A-Action Policy,產生動作,類似于人類駕駛員,推理出當前環(huán)境和自車情況之后,產出一條駕駛路徑?;跀U散模型生成多模態(tài)駕駛軌跡,支持自車與其他交通參與者的交互博弈。

以上,三步就組成了理想VLA的模型結構,從感知到,處理,最后到生產運動軌跡。同時整合為單一可訓模型。如何訓練呢?

    Reinforcement Learning,是理想VLA模型訓練的方法,模型需要喂人類想要的數據和結論給到模型,模型以后遇到類似的情況才能正確的相應。

理想采用世界模型的方式,世界模型也就是英偉達常說的“結合3D重建與生成技術,構建高保真,熟悉物理世界的虛擬環(huán)境”類似于英偉達cosmos此類。然后,通過人類給定的好案例用于強化學習訓練和閉環(huán)驗證。

理想VLA模型架構的詳細構建:首先是類似于攝像頭等傳感器的輸入。3D空間編碼器:攝像頭以及激光雷達信息進行3D編碼,提煉成3D特征,形成3D空間理解;通過自監(jiān)督學習訓練3D高斯表征,利用真實駕駛數據中的RGB圖像生成多尺度幾何和語義信息,無需人工標注。此外,自車信息例如方位,導航信息進行編碼。形成了3D空間理解的token。其實對于3D空間的理解,當前主流的方向都是學習特斯拉的采用BEV Transformer以及occupancy的方式,具體可以點擊之前文章《智能駕駛-城市領航輔助必備的BEV以及Occupancy networks》。通過理想發(fā)布的信息,理想的創(chuàng)新是采用了Gaussian-Centric的方式表征多尺度3D幾何與語義信息。

有了這些被token化的感知信息,那么就需要推理模型。語言模型(MindGPT):理想表示,其LLM大語言模型完全從零訓練,是理想的專用大語言模型(非開源模型改造),融合駕駛知識、邏輯推理能力和3D空間理解。熟悉大語言模型的都知道,大語言模型參數量巨大,需要推理的算力和實時性都難以實現自動駕駛,所以理想宣稱其MindGPT通過Sparse Attention稀疏注意力機制和混合專家(MoE)架構優(yōu)化推理效率,達到了10hz的輸出,也就是100ms能夠產生結論,而且還適應車載芯片(如Orin X)的算力限制。Sparse Attention稀疏注意力機制和混合專家(MoE)都是今年爆火的Deepseek采用的方法,所以,如我之前文章《自動駕駛新風口:DeepSeek-R1 的“車端革命”》講到,Deepseek此類開源大模型通過專業(yè)化的數據訓練再通過蒸餾成小模型就可以做成專用的小模型。此外理想還提到利用固定簡短CoT模板,來平衡實時性與邏輯深度。

對于此處的大模型應用來講,主要的邏輯就是把大模型蒸餾輕量化,專業(yè)化,便于車端的小算力和實時化部署。有了推理之后,就是執(zhí)行變成駕駛的運動軌跡實現控車。行為生成器(Diffusion Policy):基于擴散模型生成多模態(tài)駕駛軌跡,預測自車與他車軌跡,支持自車與其他交通參與者的交互博弈。通過ODE采樣器加速生成過程,實現2-3步穩(wěn)定輸出,滿足實時性要求。

真實端到端的魅力,就是以上幾個部分能夠融合打通,共用一套token,進行無損和實時的信息傳遞,如何構建這些token的參數parameters例如權重weight就是訓練要干的事情了。對于模型的訓練,理想汽車的強化學習(RL)框架依賴于一個高度逼真的世界模型,該模型通過結合場景重建與生成技術構建,解決了傳統(tǒng)RL在自動駕駛中因環(huán)境真實性不足導致的訓練偏差問題。采用自監(jiān)督學習方法,通過多視角RGB圖像重建動態(tài)3D場景,生成多尺度幾何與語義信息。3D高斯以點云形式表示場景,每個高斯點包含位置、顏色、透明度和協(xié)方差矩陣,能夠高效渲染復雜環(huán)境。

這樣VLA模型(端到端+語言模型)的訓練可以基于在云端構建虛擬3D環(huán)境,進行數百萬公里的駕駛模擬,替代部分實車測試。寫在最后當然,本文的主要信息其實算是理想汽車的公開而且偏向技術宣傳類的信息,至于效果怎么樣,還需要實際體驗,但本文信息還算能夠大概了解其算法結構,思路以及相關核心技術。此外,理想這套模型如果跑通,那么應用于其他Physical AI 也是同理,例如機器人。
未經準許嚴禁轉載和摘錄-參考資料:

    理想 2025 GTC 演講 ppt - VLA: A Leap Towards Physical AI in Autonomous Driving

加入我們的知識星球可以下載包含以上參考資料的汽車行業(yè)海量的一手資料。

理想汽車

理想汽車

理想汽車致力于為家庭打造更安全、更便捷、更舒適的智能電動車,產品包括理想L9(全尺寸六座SUV)、理想L8(中大型六座SUV)、理想L7(中大型五座SUV)。自研增程電動系統(tǒng)、魔毯空懸、智能駕駛、智能空間。

理想汽車致力于為家庭打造更安全、更便捷、更舒適的智能電動車,產品包括理想L9(全尺寸六座SUV)、理想L8(中大型六座SUV)、理想L7(中大型五座SUV)。自研增程電動系統(tǒng)、魔毯空懸、智能駕駛、智能空間。收起

查看更多

相關推薦