【觀點(diǎn):全局端到端除了太消耗運(yùn)算和存儲(chǔ)資源外,還很難添加輔助模塊,如應(yīng)對交通規(guī)則的地圖模塊,特斯拉就是因此幾乎完全無法適應(yīng)中國的交通規(guī)則。模塊化端到端將是主流,至少在違反交通規(guī)則處罰力度和廣度都很強(qiáng)的中國如此,某種意義上講還是快慢雙系統(tǒng),快系統(tǒng)是diffusion planner或policy,慢系統(tǒng)是LLM或VLM?!?/p>
經(jīng)典VLA流程
輸入前視視頻序列,VLM大模型對視頻理解、分析、提出駕駛建議,生成waypoint軌跡規(guī)劃,基本上一個(gè)VLM完成了所有任務(wù)。
端到端自動(dòng)駕駛技術(shù)演進(jìn)快速,從最初UniAD的模塊化分段端到端,半年后就演變?yōu)榛赩LA的全局式端到端和快慢雙系統(tǒng)端到端。而近期端到端再演進(jìn),VLA與特征提取模塊結(jié)合,與傳統(tǒng)的LLM而非VLM對齊,LLM做推理。軌跡規(guī)劃或者說路徑規(guī)劃階段采用DiT即擴(kuò)散與Transformer結(jié)合,呈現(xiàn)三段式模塊化端到端。
地平線的SENNA
SENNA是目前開環(huán)測試端到端智能駕駛全球第一名,多模態(tài)大模型即VLM在大規(guī)模駕駛數(shù)據(jù)上微調(diào),以提升其對駕駛場景的理解能力,并采用自然語言輸出高維決策指令,然后端到端模型基于大模型提供的決策指令,生成具體的規(guī)劃軌跡。VLM消耗運(yùn)算資源驚人,難以做到高頻率響應(yīng),應(yīng)該使用VLM的決策指令,可以最大利用其在語言任務(wù)上預(yù)訓(xùn)練的知識(shí)和常識(shí),生成合理的決策,并且避免預(yù)測精確數(shù)字效果欠佳的缺陷;另一方面,傳統(tǒng)模塊化端到端和傳統(tǒng)算法模型更擅長精確的軌跡預(yù)測,將高維決策的任務(wù)解耦,可以降低端到端模型學(xué)習(xí)的難度,提升其軌跡規(guī)劃的精確度。
一般VLA直接將前視圖像token化之后輸入VLA模型,如果是高分辨率圖像的話,token數(shù)量太多,即使用英偉達(dá)H100也難以做到最低10Hz的下限。如果將圖像提取特征,token數(shù)量會(huì)大幅度減少,但這樣會(huì)增加一個(gè)特征提取模塊,通常就是BEVFormer,這樣就又回到了模塊化分段端到端。
世界模型和Diffusion Planner出現(xiàn)了,Diffusion Planner參數(shù)規(guī)模小,結(jié)構(gòu)簡單能夠做到高頻響應(yīng),與世界模型或者強(qiáng)化學(xué)習(xí)結(jié)合訓(xùn)練也更為容易。目前,單純Diffusion Planner基本上能做到90分,有些強(qiáng)化學(xué)習(xí),如蘋果的自我博弈接近滿分,于是人們想到結(jié)合LLM和Diffusion Planner或者Diffusion Policy,既有高性能又有高效率,典型代表就是理想汽車的MindVLA。小米的Orion也類似,軌跡規(guī)劃模型用了GRU生成式。
理想汽車MindVLA
理想汽車的VLA與傳統(tǒng)意義的VLA完全不同。傳統(tǒng)VLA即Vision Language Action,可以看做是多模態(tài)大模型即VLM的延伸,VLM主要做VQA任務(wù),基本就是看圖分析回答問題,加入針對自動(dòng)駕駛監(jiān)督微調(diào)后增加一個(gè)輸出waypoint的任務(wù),即Action,也就成了VLA,是一個(gè)整體。理想汽車的MindVLA這里顯然不是,它分為三個(gè)模塊。
第一個(gè)模塊是感知模塊,或者說世界建?;蛘哒f環(huán)境特征提取。
理想汽車環(huán)境感知模塊
理想汽車采用了高斯中心的4D稀疏表示,目前自動(dòng)駕駛感知領(lǐng)域現(xiàn)有方法采用密集表示(例如,BEV鳥瞰圖)或稀疏表示(例如,實(shí)例框instance bounding box)進(jìn)行決策,這些方法在全面性和效率之間存在權(quán)衡。理想汽車探索了一個(gè)以高斯為中心的端到端自動(dòng)駕駛(GaussianAD)框架,并利用3D語義高斯來廣泛但稀疏地描述場景,也就是token數(shù)量很少。用均勻的3D高斯初始化場景,并使用周圍視圖圖像逐步完善它們以獲得3D高斯場景表示。然后使用稀疏卷積來高效執(zhí)行3D感知(例如,3D檢測,語義地圖構(gòu)建)。
高斯分布類似語言在LLM領(lǐng)域的token分布,兩者可以比較容易對齊,因此不使用VLM。
小米汽車用QT-Former取得與理想汽車近似的效果,引入一個(gè)輕量級(jí)的Querying Transformer(Q-Former),在凍結(jié)的圖像編碼器和LLM語言模型之間架起橋梁,也不需要用VLM。
理想汽車的Diffusion Planner與RLHF(人類反饋強(qiáng)化學(xué)習(xí))聯(lián)合訓(xùn)練,擴(kuò)散模型(Diffusion Model)通過利用大規(guī)模離線數(shù)據(jù)對軌跡分布進(jìn)行建模,能夠生成復(fù)雜的軌跡。與傳統(tǒng)的自回歸transformer規(guī)劃方法不同,基于擴(kuò)散的規(guī)劃器通過一系列去噪步驟可以整體生成完整軌跡,無需依賴前向動(dòng)力學(xué)模型,有效解決了前向模型的關(guān)鍵局限性,特別適用于具有自動(dòng)駕駛長周期或稀疏獎(jiǎng)勵(lì)的規(guī)劃任務(wù)。擴(kuò)散模式最早出現(xiàn)在視頻生成領(lǐng)域,即用文本生成視頻?!?/p>
擴(kuò)散模型在強(qiáng)化學(xué)習(xí)中的角色
強(qiáng)化學(xué)習(xí)中的規(guī)劃是指通過使用動(dòng)態(tài)模型在想象中做決策,再選擇最大化累積獎(jiǎng)勵(lì)的適當(dāng)動(dòng)作。規(guī)劃的過程通常會(huì)探索各種動(dòng)作和狀態(tài)的序列,從而提升決策的長期效果。在基于模型的強(qiáng)化學(xué)習(xí)(MBRL,就是世界模型)框架中,規(guī)劃序列通常以自回歸方式進(jìn)行模擬,導(dǎo)致累積誤差。擴(kuò)散模型可以同時(shí)生成多步規(guī)劃序列?,F(xiàn)有論文用擴(kuò)散模型生成的目標(biāo)非常多樣,包括 (s,a,r)、(s,a)、僅有 s、僅有 a 等等。為了在在線評估時(shí)生成高獎(jiǎng)勵(lì)的軌跡,許多工作使用了有分類器或無分類器的引導(dǎo)采樣技術(shù)。
在擴(kuò)散策略領(lǐng)域,更類似于無模型強(qiáng)化學(xué)習(xí)。Diffusion-QL 首先將擴(kuò)散策略與 Q 學(xué)習(xí)框架結(jié)合。由于擴(kuò)散模型擬合多模態(tài)分布的能力遠(yuǎn)超傳統(tǒng)模型,擴(kuò)散策略在由多個(gè)行為策略采樣的多模態(tài)數(shù)據(jù)集中表現(xiàn)良好。擴(kuò)散策略與普通策略相同,通常以狀態(tài)作為條件生成動(dòng)作,同時(shí)考慮最大化 Q (s,a) 函數(shù)。Diffusion-QL 等方法在擴(kuò)散模型訓(xùn)練時(shí)加上加權(quán)的價(jià)值函數(shù)項(xiàng),而 CEP 從能量的視角構(gòu)造加權(quán)回歸目標(biāo),用價(jià)值函數(shù)作為因子,調(diào)整擴(kuò)散模型學(xué)到的動(dòng)作分布。
擴(kuò)散模型的引入有助于離線強(qiáng)化學(xué)習(xí)策略擬合多模態(tài)數(shù)據(jù)分布并擴(kuò)展了策略的表征能力。Diffuser 首先提出了基于分類器指導(dǎo)的高獎(jiǎng)勵(lì)軌跡生成算法并啟發(fā)了大量的后續(xù)工作。同時(shí),擴(kuò)散模型也能應(yīng)用在多任務(wù)與多智能體Collective Modeling強(qiáng)化學(xué)習(xí)場景。
清華大學(xué)聯(lián)合毫末智行、中科院自動(dòng)化所、港中文、上海交大、上海人工智能實(shí)驗(yàn)室的發(fā)表于ICLR 2025的論文《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》,也是diffusion做路徑軌跡規(guī)劃的一個(gè)例子。
Diffusion Planner架構(gòu)
Diffusion Planner架構(gòu)考慮了周圍車輛的歷史信息、道路信息和靜態(tài)障礙物,設(shè)計(jì)了簡潔的編碼器結(jié)構(gòu)用于信息提取,并通過交叉注意力機(jī)制與加噪后的自車和周車軌跡進(jìn)行信息交互。此外還引入了額外的導(dǎo)航信息以及擴(kuò)散模型特有的加噪步數(shù)信息。為了避免模型重復(fù)自車歷史行為導(dǎo)致閉環(huán)性能下降,僅考慮自車當(dāng)前時(shí)刻的位置和朝向,并與周車的當(dāng)前狀態(tài)一起拼接到加噪軌跡中。通過這種方式,起始狀態(tài)的引導(dǎo)還能進(jìn)一步降低模型對未來軌跡生成的難度。
2025年3月,地平線和華中科技大學(xué)聯(lián)合發(fā)表論文《DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving》,與清華大學(xué)Diffusion planner思路差不多,地平線還考慮了前端感知。
數(shù)據(jù)來源:論文《DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving》
參數(shù)只有6千萬,在RTX4090上能夠做到45Hz,用雙Orin的話估計(jì)可以做到5-10Hz,已基本可以落地了。
英偉達(dá)的機(jī)器人通用VLA大模型GR00T-N1架構(gòu)
和理想的MindVLA類似,不過英偉達(dá)把Action部分單獨(dú)算一個(gè)系統(tǒng),且與VLM是并行的,采用的是DiT模式,即Diffusion,不過骨干網(wǎng)用Transformer取代了U-NET。英偉達(dá)稱其為快慢雙系統(tǒng),快系統(tǒng)就是Diffusion Action,最高可到200Hz,慢系統(tǒng)就是VLM(用阿里的Qwen2.5做基礎(chǔ)模型),用英偉達(dá)的L40顯卡(加上CPU大概5萬人民幣),運(yùn)行頻率10Hz。
全局端到端除了太消耗運(yùn)算和存儲(chǔ)資源外,還很難添加輔助模塊,如應(yīng)對交通規(guī)則的地圖模塊,特斯拉就是因此幾乎完全無法適應(yīng)中國的交通規(guī)則。模塊化端到端將是主流,至少在違反交通規(guī)則處罰力度和廣度都很強(qiáng)的中國如此,某種意義上講還是快慢雙系統(tǒng),快系統(tǒng)是diffusion planner或policy,慢系統(tǒng)是LLM或VLM。