典型VLM包含四個(gè)組件:視覺編碼器vision encoder、駕駛視覺適配器driving adapter、文本編碼器text encoder和大型語言模型(LLM),VLA與VLM相比則多了一個(gè)軌跡規(guī)劃器,一般是基于擴(kuò)散模式。有時(shí)adapter也稱為Input Projector:將不同模態(tài)的輸入數(shù)據(jù)映射到共享的語義空間。無論是VLM還是VLA,LLM都是核心。
小米汽車最新端到端模型ReCogDrive訓(xùn)練管線
圖片來源:論文《ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving》
小米汽車與華中科技大學(xué)首先使用310萬高質(zhì)量駕駛數(shù)據(jù)集來讓大模型適應(yīng)駕駛場(chǎng)景。具體而言,從12個(gè)開源駕駛數(shù)據(jù)集收集數(shù)據(jù),進(jìn)行歸一化處理,統(tǒng)一格式,重新標(biāo)注回答,打分過濾低質(zhì)量數(shù)據(jù),最終得到230萬條高質(zhì)量駕駛QA問答對(duì),還構(gòu)建了一個(gè)自動(dòng)標(biāo)注流水線,結(jié)合 80億參數(shù)的Qwen2.5-VL 和數(shù)據(jù)集標(biāo)簽,生成高質(zhì)量的問答數(shù)據(jù),涵蓋場(chǎng)景描述、關(guān)鍵物體描述、規(guī)劃解釋等任務(wù),此外,還融合665K的 LLaVA 指令調(diào)優(yōu)數(shù)據(jù),以保持視覺語言模型的指令遵循能力。
雖然VLM視覺語言大模型能夠以自回歸形式生成軌跡,但由于動(dòng)作空間與語言空間的巨大差異,這種方法存在根本限制。一方面,多模態(tài)大模型本身不擅長精確數(shù)值預(yù)測(cè),另一方面,視覺語言大模型偶爾會(huì)出現(xiàn)幻覺現(xiàn)象,降低其在駕駛場(chǎng)景中的可靠性。受具身智能領(lǐng)域 π0、GR00T-N1 相關(guān)研究啟發(fā),小米汽車和華中科技大學(xué)采用基于擴(kuò)散模型的軌跡規(guī)劃器作為動(dòng)作解碼器,從高維特征空間解碼出平滑軌跡,使用擴(kuò)散模型做軌跡規(guī)劃器已是端到端自動(dòng)駕駛的最主流技術(shù)。依靠12個(gè)開源QA數(shù)據(jù)集,導(dǎo)出并混合了85109個(gè)軌跡用于擴(kuò)散模型的訓(xùn)練。
AgentThink整體框架
圖片來源:論文《AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving》
VLM要用到自動(dòng)駕駛領(lǐng)域,通常要經(jīng)歷兩個(gè)階段,一個(gè)是監(jiān)督微調(diào)即SFT,另一個(gè)是強(qiáng)化學(xué)習(xí)增強(qiáng)。LLM就好比剛升入大學(xué)的學(xué)生,SFT就是針對(duì)所選專業(yè)的學(xué)習(xí),強(qiáng)化學(xué)習(xí)增強(qiáng)則類似所選工作任務(wù)的在崗培訓(xùn)。
SFT通常就是自動(dòng)駕駛領(lǐng)域內(nèi)的VQA問答集,如何設(shè)計(jì)VQA問答集是VLM的關(guān)鍵。也有不少免費(fèi)公開的自動(dòng)駕駛VQA問答集,常見的有十幾個(gè)。通常這些數(shù)據(jù)集都分成兩部分,一部分用于訓(xùn)練,另一部分用于基準(zhǔn)測(cè)試即benchmark,還有一些數(shù)據(jù)集專注于基準(zhǔn)測(cè)試,其數(shù)據(jù)集規(guī)模比較小,一般都提供基線模型baseline model。這些訓(xùn)練是彌合VLM輸出的離散文本空間與自動(dòng)駕駛所需的連續(xù)軌跡空間之間存在巨大鴻溝,也防止VLM的自回歸解碼過程可能產(chǎn)生不符合預(yù)定格式的軌跡或錯(cuò)誤的軌跡。
早期的端到端自動(dòng)駕駛都是使用模仿學(xué)習(xí),導(dǎo)致模型往往最終學(xué)到次優(yōu)的軌跡,模型只進(jìn)行了記憶不會(huì)泛化,因此引入強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)都需要在交通仿真器中進(jìn)行,目前主要有nuPlan,CARLA,還有谷歌的Waymax,蘋果自己開發(fā)的Gigaflow,英偉達(dá)的NAVSIM,小米汽車和華中科技大學(xué)用了英偉達(dá)的NAVSIM,每個(gè)仿真器都有自己的評(píng)分體系,各不相同。
常見VLM用VQA開源數(shù)據(jù)集一覽
來源:佐思汽研整理
以華中科技大學(xué)和地平線的Senna為例,設(shè)計(jì)了六類QA問答,這才是VLM的核心:
Scene Description:提示詞中指定了需要的信息,包括交通狀況、環(huán)境(如城市、農(nóng)村等)、道路類型(如鋪設(shè)道路、高速公路)、天氣條件、時(shí)間和道路條件(如道路是否光滑或是否有任何障礙物);
Traffic Signal Detection:識(shí)別前方紅綠燈的狀態(tài);
Vulnerable Road User (VRUs)Identification:識(shí)別VRUs即行人或騎車人等相對(duì)汽車的弱勢(shì)道路使用者的大概位置,不用太準(zhǔn)確,主要是讓VLM理解到VRUs對(duì)規(guī)劃的重要性;
Motion Intention Prediction:預(yù)測(cè)移動(dòng)目標(biāo)未來的運(yùn)動(dòng)行為,輸出也是meta-action里的那幾類;
Meta-action Planning:輸出meta-actions;
Planning Explanation:這里是輸入給VLM自車未來的軌跡,讓VLM解釋這么做的原因。
"acc." refers to accelerate and "dec." refers to decelerate
表來源:論文《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》
上表顯示出6種類型齊備的QA問答,讓模型性能達(dá)到最高,其中也不難看出Meta Action、交通燈信號(hào)、場(chǎng)景描述對(duì)模型正確率影響較大。
表來源:論文《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》
左表顯示出只輸入前視圖和加上環(huán)視圖的性能對(duì)比,右表顯示出訓(xùn)練數(shù)據(jù)規(guī)模對(duì)模型性能的影響。
每個(gè)訓(xùn)練數(shù)據(jù)集會(huì)抽出一小部分做測(cè)試評(píng)估,也有一些專門用來做基準(zhǔn)測(cè)試的小型數(shù)據(jù)集即benchmark,常見的如下表。
來源:佐思汽研整理
對(duì)于視覺文本問答即VQA,主流的評(píng)估體系是基于機(jī)器翻譯的,通常包括BLEU,ROUGE,CIDEr。BLEU (BiLingual Evaluation Understudy) 是一種評(píng)估機(jī)器翻譯文本的指標(biāo),但也可用于評(píng)估生成文本的質(zhì)量,通過比較機(jī)器生成的文本和人類生成的參考文本的重疊程度。BLEU 得分是一個(gè) 0 到 1 之間的數(shù)字,用于衡量機(jī)器翻譯文本與一組高質(zhì)量參考翻譯的相似度。0 表示機(jī)器翻譯的輸出與參考翻譯沒有重疊(低質(zhì)量),而 1 表示其與參考翻譯完全重疊(高質(zhì)量)。
BLEU評(píng)分是由Kishore Papineni等人2002年的論文《BLEU: a Method for Automatic Evaluation of Machine Translation》中提出的。默認(rèn)情況下,sentence_bleu()和corpus_bleu()分?jǐn)?shù)計(jì)算累加的4元組BLEU分?jǐn)?shù),也稱為BLEU-4分?jǐn)?shù),一般簡寫為B4。
ROUGE (Recall-Oriented Understudy for Gisting Evaluation),可以看做是BLEU 的改進(jìn)版,專注于召回率而非精度。換句話說,它會(huì)查看有多少個(gè)參考譯句中的 n 元詞組出現(xiàn)在了輸出之中。
CIDEr (Consensus-based Image Description Evaluation)專門為圖像描述任務(wù)設(shè)計(jì),CIDEr更接近人類去判斷兩個(gè)句子是否相近的原理,因?yàn)樗昧薚F-IDF來對(duì)不同n-gram去賦予不同的權(quán)重,直觀來說,即經(jīng)常出現(xiàn)的詞組的權(quán)重具有更低的權(quán)重,而不常出現(xiàn)的詞組則更特殊(具有更大的權(quán)重),人們會(huì)更注意這些特殊的單詞。
除了VQA外,不同的benchmark會(huì)有不同的側(cè)重點(diǎn)和評(píng)分體系,比如武漢大學(xué)與中科慧拓提出的DriveMLLM benchmark,側(cè)重于VLM模型的空間理解能力。
論文《AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving》
小米汽車AgentThink使用DriveMLLM測(cè)試,L/R代表左右邊界,F(xiàn)/B代表前后邊界,Relative Horizontal Distance關(guān)聯(lián)水平距離 (RHD), Relative Distance關(guān)聯(lián)距離 (RD), Camera Vertical Distance攝像頭垂直距離 (CVD), Camera Distance 攝像頭距離(CD) Position Localization Accuracy 定位精度(Task PPos),Bounding Box Accuracy 邊界框精度(Task BBox),The Aggregate Accuracy Score累積精度 (AccS)。
復(fù)旦和華為諾亞方舟實(shí)驗(yàn)室的Reason2Drive,側(cè)重于VLM的推理能力測(cè)試,擁有超過60萬個(gè)視頻-文本對(duì)的基準(zhǔn)數(shù)據(jù)集,旨在促進(jìn)復(fù)雜駕駛環(huán)境中可解釋推理的研究。將自動(dòng)駕駛過程明確地描述為感知、預(yù)測(cè)和推理步驟的順序組合,問答對(duì)是從各種開源戶外駕駛數(shù)據(jù)集中自動(dòng)收集的,包括nuScenes、Waymo和ONCE,標(biāo)注長度達(dá)633K,在VLM Benchmark里排名第一。
2025年6月11日發(fā)布的AD2-BENCH,是中科院和騰訊CDG聯(lián)合推出的側(cè)重于多模態(tài)大模型的推理能力測(cè)試,與其他高?;蚱髽I(yè)的benchmark采用自動(dòng)生成標(biāo)注的方法不同,財(cái)大氣粗的騰訊采用全人工專家標(biāo)注,準(zhǔn)確度是明顯比自動(dòng)生成要高。
AD2-BENCH搜集了10K道路實(shí)拍數(shù)據(jù),70K的VQA問答,5406個(gè)實(shí)例包括全思維鏈,所有VQA和思維鏈都采用專家人工標(biāo)注,集成了 region,文本 text,point-level(疑似是點(diǎn)云級(jí)) visual prompts 和可確定的轉(zhuǎn)向模式explicitly steers model。
AD2-BENCH對(duì)主流多模態(tài)大模型的推理能力打分
數(shù)據(jù)來源:論文《AD2-Bench: A Hierarchical CoT Benchmark for MLLM in Autonomous Driving under Adverse Conditions》
值得一提的還有理想汽車的DriveAction,2025年6月9日剛剛發(fā)布,論文為DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models,作者全部都是理想汽車的研發(fā)人員,沒有高校參與。
DriveAction數(shù)據(jù)集源自量產(chǎn)車輛內(nèi)部測(cè)試用戶主動(dòng)收集的真實(shí)世界數(shù)據(jù),與以往依賴自收集或開源數(shù)據(jù)的基準(zhǔn)不同,它覆蓋了中國148個(gè)城市以及所有量產(chǎn)車型的記錄。通過多輪人工篩選和質(zhì)量控制,確保了駕駛場(chǎng)景和動(dòng)作的全面性和代表性。
該數(shù)據(jù)集涵蓋了7大關(guān)鍵場(chǎng)景類別,包括匝道/側(cè)路合并/分離、導(dǎo)航/效率驅(qū)動(dòng)的變道、繞行弱勢(shì)道路使用者、復(fù)雜路口等。每個(gè)場(chǎng)景都關(guān)聯(lián)了多種細(xì)粒度動(dòng)作,如變道、減速、繞行等,能夠詳細(xì)分析不同駕駛情況下的決策過程。DriveAction的動(dòng)作標(biāo)簽直接來源于用戶的實(shí)時(shí)駕駛操作,能夠準(zhǔn)確捕捉駕駛員決策時(shí)的真實(shí)意圖。為了與端到端大型模型的輸出粒度匹配,這些標(biāo)簽被離散化為高級(jí)動(dòng)作,更好地反映了人類駕駛決策的分類性質(zhì)。所有標(biāo)簽都經(jīng)過多輪人工驗(yàn)證,排除了錯(cuò)誤、不合理或非法的行為,如意外的控制輸入、與交通環(huán)境不符的突然停車、違反交通規(guī)則的動(dòng)作等,確保了標(biāo)注的可靠性和有效性。
DriveAction Benchmark示例
圖片來源:論文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》
DriveAction引入了以動(dòng)作為根的樹狀結(jié)構(gòu)評(píng)估框架,該框架基于動(dòng)作決策動(dòng)態(tài)映射所需的視覺和語言任務(wù),通過整合豐富的context場(chǎng)景信息,確保模型決策在完整、現(xiàn)實(shí)的環(huán)境中進(jìn)行。
任務(wù)定義:該框架將評(píng)估邏輯設(shè)計(jì)為以動(dòng)作為根的樹狀結(jié)構(gòu),上層是動(dòng)作節(jié)點(diǎn)(如變道、路口轉(zhuǎn)彎等),中間層是語言任務(wù)(如導(dǎo)航跟隨、交通燈跟隨等),底層是視覺任務(wù)(如車道、交通標(biāo)志、障礙物檢測(cè)等)。這種結(jié)構(gòu)系統(tǒng)地將V-L-A任務(wù)整合到一個(gè)可擴(kuò)展的框架中,支持針對(duì)每個(gè)動(dòng)作的動(dòng)態(tài)子任務(wù)組合,即使在復(fù)雜或長尾場(chǎng)景中也能進(jìn)行全面的決策評(píng)估。
場(chǎng)景信息設(shè)計(jì):為模型評(píng)估提供了三種關(guān)鍵場(chǎng)景信息,包括連續(xù)的視覺幀(支持動(dòng)態(tài)上下文中的時(shí)間推理)、導(dǎo)航指令(提供路線指導(dǎo)、即將到來的轉(zhuǎn)彎和目標(biāo)車道信息)、車輛速度(量化當(dāng)前和期望的駕駛狀態(tài))。這些信息對(duì)于可靠和上下文感知的自動(dòng)駕駛評(píng)估至關(guān)重要,能夠有效減少模型的幻覺決策。
靈活的評(píng)估模式:支持綜合評(píng)估和特定任務(wù)評(píng)估兩種模式。綜合評(píng)估關(guān)注模型的最終決策輸出,通過四種評(píng)估模式(全流程模式V-L-A、僅視覺模式V-A、僅語言模式L-A、無信息模式A)分析視覺和語言信息對(duì)整體動(dòng)作決策的影響;特定任務(wù)評(píng)估則對(duì)層次樹結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)進(jìn)行細(xì)粒度評(píng)估,幫助識(shí)別模型在感知、推理和決策技能方面的優(yōu)勢(shì)和劣勢(shì)。
幾種多模態(tài)大模型的評(píng)分
數(shù)據(jù)來源:論文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》
目前端到端自動(dòng)駕駛的評(píng)估體系還未完全建立,高校和企業(yè)都在自建評(píng)估體系,并且這些評(píng)估體系都是仿真的,都達(dá)不到嚴(yán)格意義上的閉環(huán)評(píng)估,這或許是端到端自動(dòng)駕駛給智能駕駛管理系統(tǒng)出的難題,不過這并不阻礙端到端自動(dòng)駕駛的量產(chǎn)上車。
免責(zé)說明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng),不具有任何指導(dǎo)、投資和決策意見。
更多佐思報(bào)告
佐思2025年研究報(bào)告撰寫計(jì)劃
智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)鏈全景圖(2024年12月版)
云端和AI | ||
車云 | OTA研究 | 智能駕駛仿真 |
汽車云服務(wù)研究 | 自動(dòng)駕駛地圖 | |
TSP與應(yīng)用服務(wù) | V2X和車路協(xié)同 | |
數(shù)據(jù)閉環(huán)研究 | 路側(cè)智能感知 | |
車路云一體化研究 | ||
AI大模型 | 汽車AI大模型研究 | AI大模型對(duì)整車智能化影響 |
座艙AI應(yīng)用研究 | 車載AI Agent產(chǎn)品開發(fā)與商業(yè)化 | |
AI定義汽車 | ||
智駕系統(tǒng)集成和應(yīng)用層 | ||
自動(dòng)駕駛應(yīng)用框架 | ADAS與自動(dòng)駕駛Tier1-國內(nèi) | 自主品牌ADAS |
ADAS與自動(dòng)駕駛Tier1-國外 | 國外OEM ADAS研究 | |
L3/L4級(jí)自動(dòng)駕駛和初創(chuàng)企業(yè) | 理想L8/L9功能拆解 | |
智能駕駛Tier1前10強(qiáng)對(duì)比 | 日本Tier1先進(jìn)技術(shù)研究 | |
自動(dòng)駕駛算法和系統(tǒng) | 端到端智駕研究 | 行泊一體研究 |
冗余系統(tǒng) | 艙泊一體 | |
智駕融合算法 | 艙行泊融合 | |
汽車視覺算法 | 無人配送車 | |
領(lǐng)航輔助駕駛(NOA) | ||
感知 | 毫米波雷達(dá) | 汽車視覺 |
激光雷達(dá)研究 | 紅外夜視 | |
激光雷達(dá)核心部件 | 車用超聲波雷達(dá) | |
軟件定義雷達(dá) | 車載攝像頭Tier2 | |
MEMS傳感器 | 前視一體機(jī) | |
智艙系統(tǒng)集成和應(yīng)用層 | ||
智能座艙應(yīng)用框架 | 智能座艙Tier1 | 座艙設(shè)計(jì)趨勢(shì) |
智能座艙平臺(tái) | ||
座艙顯示 | 車載XR研究 | HUD產(chǎn)業(yè)鏈 |
儀表和中控顯示 | 電子后視鏡 | |
座艙多屏與聯(lián)屏 | 行車記錄儀 | |
HUD產(chǎn)業(yè)研究 | 智能玻璃 | |
座艙交互 | 車載語音 | 車載香氛與空氣凈化 |
艙內(nèi)監(jiān)控研究 | 汽車音響 | |
汽車多模態(tài)交互 | 智能表面 | |
手勢(shì)交互發(fā)展 | ||
座艙互聯(lián)娛樂與生態(tài) | 汽車生態(tài)域 | 自主品牌車聯(lián)網(wǎng) |
汽車數(shù)字鑰匙 | 合資品牌車聯(lián)網(wǎng) | |
車載支付 | 新勢(shì)力品牌車聯(lián)網(wǎng) | |
車載信息娛樂 | 商用車車聯(lián)網(wǎng) | |
汽車eCall系統(tǒng) | 商用車智能座艙 | |
座艙其他 | 汽車舒適系統(tǒng) | 智能車門 |
汽車照明 | 上海車展75項(xiàng)趨勢(shì) | |
車載無線充電 | 兩輪車智能化 | |
AI/AR眼鏡研究 | ||
OS和支撐層 | ||
SDV框架 | SDV:OEM軟件開發(fā)和供應(yīng)鏈部署策略 | 汽車軟件業(yè)務(wù)模式 |
SDV: SOA與中間件 | ||
基礎(chǔ)軟件/系統(tǒng)平臺(tái) | AUTOSAR研究 | 汽車操作系統(tǒng) |
數(shù)字儀表OS | ||
信息安全/功能安全 | 汽車信息安全 | 汽車功能安全 |
電子電氣架構(gòu)層 | ||
E/E架構(gòu)框架 | E/E架構(gòu) | 汽車電子代工 |
48V低壓供電網(wǎng)絡(luò) | ||
智駕域 | 自動(dòng)駕駛SoC | ADAS域控組件 |
自動(dòng)駕駛域控 | ||
座艙域 | 智能座艙平臺(tái) | 座艙域控 |
座艙SoC | 8295座艙域控制器拆解 | |
車控域 | 車身(區(qū))域控研究 | 汽車VCU研究 |
電驅(qū)動(dòng)和動(dòng)力域控制器 | ||
通信/網(wǎng)絡(luò)域 | 車內(nèi)通信芯片 | 商用車T-Box |
無線通訊模組 | 高精度定位 | |
汽車網(wǎng)關(guān) | 車載天線 | |
乘用車T-Box | 汽車UWB研究 | |
跨域融合 | 多域計(jì)算和區(qū)域控制器 | |
區(qū)域和中央計(jì)算 | 車身(區(qū))域控研究 | |
其他芯片 | 汽車MCU研究 | 車用RISC-V研究 |
車載存儲(chǔ)芯片 | 傳感器芯片 | |
電源管理芯片 | 汽車CIS研究 | |
汽車芯片供應(yīng)鏈研究 | ||
動(dòng)力層 | ||
動(dòng)力 | 混合動(dòng)力報(bào)告 | 電源管理芯片 |
800V高壓平臺(tái) | 電驅(qū)動(dòng)與動(dòng)力域研究 | |
IGBT及SiC研究 | ||
能源 | 一體化電池 | 充換電研究 |
燃料電池 | 移動(dòng)充電機(jī)器人 | |
固態(tài)電池 | 數(shù)字電源及芯片 | |
其他 | 熱管理系統(tǒng) | 一體化壓鑄 |
汽車微電機(jī)及運(yùn)動(dòng)機(jī)構(gòu)研究 |
||
機(jī)械層 | ||
底盤/執(zhí)行 | 乘用車底盤域控 | 電控懸架 |
線控制動(dòng)&AEB | 智能轉(zhuǎn)向關(guān)鍵組件 | |
轉(zhuǎn)向系統(tǒng) | 商用車智能底盤 | |
滑板底盤研究 | 數(shù)字底盤研究 |
AI機(jī)器人 | ||
AI機(jī)器人 | PBV及汽車機(jī)器人 | 無人配送車 |
移動(dòng)充電機(jī)器人 | 飛行汽車 | |
具身智能研究 | ||
其他宏觀 | ||
車型平臺(tái) | 車企模塊化平臺(tái) | 主機(jī)廠車型規(guī)劃研究 |
出海 | 主機(jī)廠海外布局 | 座艙出海研究 |
政策、標(biāo)準(zhǔn)、準(zhǔn)入 | 智駕法規(guī)和汽車出海 | 自動(dòng)駕駛標(biāo)準(zhǔn)與認(rèn)證 |
其他 |
新技術(shù)應(yīng)用趨勢(shì) |
24-25年新車及供應(yīng)商趨勢(shì) |