国产精品视频男人的天堂,免费国产自在线拍,亚洲图片国产精品一区二区

【觀點(diǎn)：全局端到端除了太消耗運(yùn)算和存儲(chǔ)資源外，還很難添加輔助模塊，如應(yīng)對交通規(guī)則的地圖模塊，特斯拉就是因此幾乎完全無法適應(yīng)中國的交通規(guī)則。模塊化端到端將是主流，至少在違反交通規(guī)則處罰力度和廣度都很強(qiáng)的中國如此，某種意義上講還是快慢雙系統(tǒng)，快系統(tǒng)是diffusion planner或policy，慢系統(tǒng)是LLM或VLM?！?/p>

經(jīng)典VLA流程

輸入前視視頻序列，VLM大模型對視頻理解、分析、提出駕駛建議，生成waypoint軌跡規(guī)劃，基本上一個(gè)VLM完成了所有任務(wù)。

端到端自動(dòng)駕駛技術(shù)演進(jìn)快速，從最初UniAD的模塊化分段端到端，半年后就演變?yōu)榛赩LA的全局式端到端和快慢雙系統(tǒng)端到端。而近期端到端再演進(jìn)，VLA與特征提取模塊結(jié)合，與傳統(tǒng)的LLM而非VLM對齊，LLM做推理。軌跡規(guī)劃或者說路徑規(guī)劃階段采用DiT即擴(kuò)散與Transformer結(jié)合，呈現(xiàn)三段式模塊化端到端。

地平線的SENNA

SENNA是目前開環(huán)測試端到端智能駕駛全球第一名，多模態(tài)大模型即VLM在大規(guī)模駕駛數(shù)據(jù)上微調(diào)，以提升其對駕駛場景的理解能力，并采用自然語言輸出高維決策指令，然后端到端模型基于大模型提供的決策指令，生成具體的規(guī)劃軌跡。VLM消耗運(yùn)算資源驚人，難以做到高頻率響應(yīng)，應(yīng)該使用VLM的決策指令，可以最大利用其在語言任務(wù)上預(yù)訓(xùn)練的知識(shí)和常識(shí)，生成合理的決策，并且避免預(yù)測精確數(shù)字效果欠佳的缺陷；另一方面，傳統(tǒng)模塊化端到端和傳統(tǒng)算法模型更擅長精確的軌跡預(yù)測，將高維決策的任務(wù)解耦，可以降低端到端模型學(xué)習(xí)的難度，提升其軌跡規(guī)劃的精確度。

一般VLA直接將前視圖像token化之后輸入VLA模型，如果是高分辨率圖像的話，token數(shù)量太多，即使用英偉達(dá)H100也難以做到最低10Hz的下限。如果將圖像提取特征，token數(shù)量會(huì)大幅度減少，但這樣會(huì)增加一個(gè)特征提取模塊，通常就是BEVFormer，這樣就又回到了模塊化分段端到端。

世界模型和Diffusion Planner出現(xiàn)了，Diffusion Planner參數(shù)規(guī)模小，結(jié)構(gòu)簡單能夠做到高頻響應(yīng)，與世界模型或者強(qiáng)化學(xué)習(xí)結(jié)合訓(xùn)練也更為容易。目前，單純Diffusion Planner基本上能做到90分，有些強(qiáng)化學(xué)習(xí)，如蘋果的自我博弈接近滿分，于是人們想到結(jié)合LLM和Diffusion Planner或者Diffusion Policy，既有高性能又有高效率，典型代表就是理想汽車的MindVLA。小米的Orion也類似，軌跡規(guī)劃模型用了GRU生成式。

理想汽車MindVLA

理想汽車的VLA與傳統(tǒng)意義的VLA完全不同。傳統(tǒng)VLA即Vision Language Action，可以看做是多模態(tài)大模型即VLM的延伸，VLM主要做VQA任務(wù)，基本就是看圖分析回答問題，加入針對自動(dòng)駕駛監(jiān)督微調(diào)后增加一個(gè)輸出waypoint的任務(wù)，即Action，也就成了VLA，是一個(gè)整體。理想汽車的MindVLA這里顯然不是，它分為三個(gè)模塊。

第一個(gè)模塊是感知模塊，或者說世界建?；蛘哒f環(huán)境特征提取。

理想汽車環(huán)境感知模塊

理想汽車采用了高斯中心的4D稀疏表示，目前自動(dòng)駕駛感知領(lǐng)域現(xiàn)有方法采用密集表示（例如，BEV鳥瞰圖）或稀疏表示（例如，實(shí)例框instance bounding box）進(jìn)行決策，這些方法在全面性和效率之間存在權(quán)衡。理想汽車探索了一個(gè)以高斯為中心的端到端自動(dòng)駕駛（GaussianAD）框架，并利用3D語義高斯來廣泛但稀疏地描述場景，也就是token數(shù)量很少。用均勻的3D高斯初始化場景，并使用周圍視圖圖像逐步完善它們以獲得3D高斯場景表示。然后使用稀疏卷積來高效執(zhí)行3D感知（例如，3D檢測，語義地圖構(gòu)建）。

高斯分布類似語言在LLM領(lǐng)域的token分布，兩者可以比較容易對齊，因此不使用VLM。

小米汽車用QT-Former取得與理想汽車近似的效果，引入一個(gè)輕量級(jí)的Querying Transformer（Q-Former），在凍結(jié)的圖像編碼器和LLM語言模型之間架起橋梁，也不需要用VLM。

理想汽車的Diffusion Planner與RLHF（人類反饋強(qiáng)化學(xué)習(xí)）聯(lián)合訓(xùn)練，擴(kuò)散模型（Diffusion Model）通過利用大規(guī)模離線數(shù)據(jù)對軌跡分布進(jìn)行建模，能夠生成復(fù)雜的軌跡。與傳統(tǒng)的自回歸transformer規(guī)劃方法不同，基于擴(kuò)散的規(guī)劃器通過一系列去噪步驟可以整體生成完整軌跡，無需依賴前向動(dòng)力學(xué)模型，有效解決了前向模型的關(guān)鍵局限性，特別適用于具有自動(dòng)駕駛長周期或稀疏獎(jiǎng)勵(lì)的規(guī)劃任務(wù)。擴(kuò)散模式最早出現(xiàn)在視頻生成領(lǐng)域，即用文本生成視頻?！?/p>

擴(kuò)散模型在強(qiáng)化學(xué)習(xí)中的角色

強(qiáng)化學(xué)習(xí)中的規(guī)劃是指通過使用動(dòng)態(tài)模型在想象中做決策，再選擇最大化累積獎(jiǎng)勵(lì)的適當(dāng)動(dòng)作。規(guī)劃的過程通常會(huì)探索各種動(dòng)作和狀態(tài)的序列，從而提升決策的長期效果。在基于模型的強(qiáng)化學(xué)習(xí)（MBRL，就是世界模型）框架中，規(guī)劃序列通常以自回歸方式進(jìn)行模擬，導(dǎo)致累積誤差。擴(kuò)散模型可以同時(shí)生成多步規(guī)劃序列?，F(xiàn)有論文用擴(kuò)散模型生成的目標(biāo)非常多樣，包括 (s,a,r)、(s,a)、僅有 s、僅有 a 等等。為了在在線評估時(shí)生成高獎(jiǎng)勵(lì)的軌跡，許多工作使用了有分類器或無分類器的引導(dǎo)采樣技術(shù)。

在擴(kuò)散策略領(lǐng)域，更類似于無模型強(qiáng)化學(xué)習(xí)。Diffusion-QL 首先將擴(kuò)散策略與 Q 學(xué)習(xí)框架結(jié)合。由于擴(kuò)散模型擬合多模態(tài)分布的能力遠(yuǎn)超傳統(tǒng)模型，擴(kuò)散策略在由多個(gè)行為策略采樣的多模態(tài)數(shù)據(jù)集中表現(xiàn)良好。擴(kuò)散策略與普通策略相同，通常以狀態(tài)作為條件生成動(dòng)作，同時(shí)考慮最大化 Q (s,a) 函數(shù)。Diffusion-QL 等方法在擴(kuò)散模型訓(xùn)練時(shí)加上加權(quán)的價(jià)值函數(shù)項(xiàng)，而 CEP 從能量的視角構(gòu)造加權(quán)回歸目標(biāo)，用價(jià)值函數(shù)作為因子，調(diào)整擴(kuò)散模型學(xué)到的動(dòng)作分布。

擴(kuò)散模型的引入有助于離線強(qiáng)化學(xué)習(xí)策略擬合多模態(tài)數(shù)據(jù)分布并擴(kuò)展了策略的表征能力。Diffuser 首先提出了基于分類器指導(dǎo)的高獎(jiǎng)勵(lì)軌跡生成算法并啟發(fā)了大量的后續(xù)工作。同時(shí)，擴(kuò)散模型也能應(yīng)用在多任務(wù)與多智能體Collective Modeling強(qiáng)化學(xué)習(xí)場景。

清華大學(xué)聯(lián)合毫末智行、中科院自動(dòng)化所、港中文、上海交大、上海人工智能實(shí)驗(yàn)室的發(fā)表于ICLR 2025的論文《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》，也是diffusion做路徑軌跡規(guī)劃的一個(gè)例子。

Diffusion Planner架構(gòu)

Diffusion Planner架構(gòu)考慮了周圍車輛的歷史信息、道路信息和靜態(tài)障礙物，設(shè)計(jì)了簡潔的編碼器結(jié)構(gòu)用于信息提取，并通過交叉注意力機(jī)制與加噪后的自車和周車軌跡進(jìn)行信息交互。此外還引入了額外的導(dǎo)航信息以及擴(kuò)散模型特有的加噪步數(shù)信息。為了避免模型重復(fù)自車歷史行為導(dǎo)致閉環(huán)性能下降，僅考慮自車當(dāng)前時(shí)刻的位置和朝向，并與周車的當(dāng)前狀態(tài)一起拼接到加噪軌跡中。通過這種方式，起始狀態(tài)的引導(dǎo)還能進(jìn)一步降低模型對未來軌跡生成的難度。

2025年3月，地平線和華中科技大學(xué)聯(lián)合發(fā)表論文《DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving》，與清華大學(xué)Diffusion planner思路差不多，地平線還考慮了前端感知。

數(shù)據(jù)來源：論文《DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving》

參數(shù)只有6千萬，在RTX4090上能夠做到45Hz，用雙Orin的話估計(jì)可以做到5-10Hz，已基本可以落地了。

英偉達(dá)的機(jī)器人通用VLA大模型GR00T-N1架構(gòu)

和理想的MindVLA類似，不過英偉達(dá)把Action部分單獨(dú)算一個(gè)系統(tǒng)，且與VLM是并行的，采用的是DiT模式，即Diffusion，不過骨干網(wǎng)用Transformer取代了U-NET。英偉達(dá)稱其為快慢雙系統(tǒng)，快系統(tǒng)就是Diffusion Action，最高可到200Hz，慢系統(tǒng)就是VLM（用阿里的Qwen2.5做基礎(chǔ)模型），用英偉達(dá)的L40顯卡（加上CPU大概5萬人民幣），運(yùn)行頻率10Hz。

全局端到端除了太消耗運(yùn)算和存儲(chǔ)資源外，還很難添加輔助模塊，如應(yīng)對交通規(guī)則的地圖模塊，特斯拉就是因此幾乎完全無法適應(yīng)中國的交通規(guī)則。模塊化端到端將是主流，至少在違反交通規(guī)則處罰力度和廣度都很強(qiáng)的中國如此，某種意義上講還是快慢雙系統(tǒng)，快系統(tǒng)是diffusion planner或policy，慢系統(tǒng)是LLM或VLM。

特斯拉全局端到端走不通，理想與地平線VLA加入diffusion policy再進(jìn)化

經(jīng)典VLA流程

地平線的SENNA

理想汽車MindVLA

理想汽車環(huán)境感知模塊

擴(kuò)散模型在強(qiáng)化學(xué)習(xí)中的角色

Diffusion Planner架構(gòu)

英偉達(dá)的機(jī)器人通用VLA大模型GR00T-N1架構(gòu)

相關(guān)推薦

特斯拉全局端到端走不通，理想與地平線VLA加入diffusion policy再進(jìn)化

經(jīng)典VLA流程

地平線的SENNA

理想汽車MindVLA

理想汽車環(huán)境感知模塊

擴(kuò)散模型在強(qiáng)化學(xué)習(xí)中的角色

Diffusion Planner架構(gòu)

英偉達(dá)的機(jī)器人通用VLA大模型GR00T-N1架構(gòu)

相關(guān)推薦

特斯拉全局端到端走不通，理想與地平線VLA加入diffusion policy再進(jìn)化