• 正文
    • 汽車微電機(jī)及運(yùn)動(dòng)機(jī)構(gòu)研究
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

如何訓(xùn)練并評(píng)價(jià)VLM/VLA模型,13大開源數(shù)據(jù)集一覽

2小時(shí)前
115
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

 

典型VLM包含四個(gè)組件:視覺編碼器vision encoder、駕駛視覺適配器driving adapter、文本編碼器text encoder和大型語言模型(LLM),VLA與VLM相比則多了一個(gè)軌跡規(guī)劃器,一般是基于擴(kuò)散模式。有時(shí)adapter也稱為Input Projector:將不同模態(tài)的輸入數(shù)據(jù)映射到共享的語義空間。無論是VLM還是VLA,LLM都是核心。

 

小米汽車最新端到端模型ReCogDrive訓(xùn)練管線

圖片來源:論文《ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving》

 

小米汽車與華中科技大學(xué)首先使用310萬高質(zhì)量駕駛數(shù)據(jù)集來讓大模型適應(yīng)駕駛場(chǎng)景。具體而言,從12個(gè)開源駕駛數(shù)據(jù)集收集數(shù)據(jù),進(jìn)行歸一化處理,統(tǒng)一格式,重新標(biāo)注回答,打分過濾低質(zhì)量數(shù)據(jù),最終得到230萬條高質(zhì)量駕駛QA問答對(duì),還構(gòu)建了一個(gè)自動(dòng)標(biāo)注流水線,結(jié)合 80億參數(shù)的Qwen2.5-VL 和數(shù)據(jù)集標(biāo)簽,生成高質(zhì)量的問答數(shù)據(jù),涵蓋場(chǎng)景描述、關(guān)鍵物體描述、規(guī)劃解釋等任務(wù),此外,還融合665K的 LLaVA 指令調(diào)優(yōu)數(shù)據(jù),以保持視覺語言模型的指令遵循能力。

 

雖然VLM視覺語言大模型能夠以自回歸形式生成軌跡,但由于動(dòng)作空間與語言空間的巨大差異,這種方法存在根本限制。一方面,多模態(tài)大模型本身不擅長精確數(shù)值預(yù)測(cè),另一方面,視覺語言大模型偶爾會(huì)出現(xiàn)幻覺現(xiàn)象,降低其在駕駛場(chǎng)景中的可靠性。受具身智能領(lǐng)域 π0、GR00T-N1 相關(guān)研究啟發(fā),小米汽車和華中科技大學(xué)采用基于擴(kuò)散模型的軌跡規(guī)劃器作為動(dòng)作解碼器,從高維特征空間解碼出平滑軌跡,使用擴(kuò)散模型做軌跡規(guī)劃器已是端到端自動(dòng)駕駛的最主流技術(shù)。依靠12個(gè)開源QA數(shù)據(jù)集,導(dǎo)出并混合了85109個(gè)軌跡用于擴(kuò)散模型的訓(xùn)練。

 

AgentThink整體框架

圖片來源:論文《AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving》

 

VLM要用到自動(dòng)駕駛領(lǐng)域,通常要經(jīng)歷兩個(gè)階段,一個(gè)是監(jiān)督微調(diào)即SFT,另一個(gè)是強(qiáng)化學(xué)習(xí)增強(qiáng)。LLM就好比剛升入大學(xué)的學(xué)生,SFT就是針對(duì)所選專業(yè)的學(xué)習(xí),強(qiáng)化學(xué)習(xí)增強(qiáng)則類似所選工作任務(wù)的在崗培訓(xùn)。

 

SFT通常就是自動(dòng)駕駛領(lǐng)域內(nèi)的VQA問答集,如何設(shè)計(jì)VQA問答集是VLM的關(guān)鍵。也有不少免費(fèi)公開的自動(dòng)駕駛VQA問答集,常見的有十幾個(gè)。通常這些數(shù)據(jù)集都分成兩部分,一部分用于訓(xùn)練,另一部分用于基準(zhǔn)測(cè)試即benchmark,還有一些數(shù)據(jù)集專注于基準(zhǔn)測(cè)試,其數(shù)據(jù)集規(guī)模比較小,一般都提供基線模型baseline model。這些訓(xùn)練是彌合VLM輸出的離散文本空間與自動(dòng)駕駛所需的連續(xù)軌跡空間之間存在巨大鴻溝,也防止VLM的自回歸解碼過程可能產(chǎn)生不符合預(yù)定格式的軌跡或錯(cuò)誤的軌跡。

 

早期的端到端自動(dòng)駕駛都是使用模仿學(xué)習(xí),導(dǎo)致模型往往最終學(xué)到次優(yōu)的軌跡,模型只進(jìn)行了記憶不會(huì)泛化,因此引入強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)都需要在交通仿真器中進(jìn)行,目前主要有nuPlan,CARLA,還有谷歌的Waymax,蘋果自己開發(fā)的Gigaflow,英偉達(dá)的NAVSIM,小米汽車和華中科技大學(xué)用了英偉達(dá)的NAVSIM,每個(gè)仿真器都有自己的評(píng)分體系,各不相同。

 

常見VLM用VQA開源數(shù)據(jù)集一覽

來源:佐思汽研整理

 

以華中科技大學(xué)和地平線的Senna為例,設(shè)計(jì)了六類QA問答,這才是VLM的核心:

 

Scene Description:提示詞中指定了需要的信息,包括交通狀況、環(huán)境(如城市、農(nóng)村等)、道路類型(如鋪設(shè)道路、高速公路)、天氣條件、時(shí)間和道路條件(如道路是否光滑或是否有任何障礙物);

Traffic Signal Detection:識(shí)別前方紅綠燈的狀態(tài);

Vulnerable Road User (VRUs)Identification:識(shí)別VRUs即行人或騎車人等相對(duì)汽車的弱勢(shì)道路使用者的大概位置,不用太準(zhǔn)確,主要是讓VLM理解到VRUs對(duì)規(guī)劃的重要性;

Motion Intention Prediction:預(yù)測(cè)移動(dòng)目標(biāo)未來的運(yùn)動(dòng)行為,輸出也是meta-action里的那幾類;

Meta-action Planning:輸出meta-actions;

Planning Explanation:這里是輸入給VLM自車未來的軌跡,讓VLM解釋這么做的原因。

 

"acc." refers to accelerate and "dec." refers to decelerate

表來源:論文《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》

 

上表顯示出6種類型齊備的QA問答,讓模型性能達(dá)到最高,其中也不難看出Meta Action、交通燈信號(hào)、場(chǎng)景描述對(duì)模型正確率影響較大。

 

表來源:論文《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》

 

左表顯示出只輸入前視圖和加上環(huán)視圖的性能對(duì)比,右表顯示出訓(xùn)練數(shù)據(jù)規(guī)模對(duì)模型性能的影響。

 

每個(gè)訓(xùn)練數(shù)據(jù)集會(huì)抽出一小部分做測(cè)試評(píng)估,也有一些專門用來做基準(zhǔn)測(cè)試的小型數(shù)據(jù)集即benchmark,常見的如下表。

 

來源:佐思汽研整理

 

對(duì)于視覺文本問答即VQA,主流的評(píng)估體系是基于機(jī)器翻譯的,通常包括BLEU,ROUGE,CIDEr。BLEU (BiLingual Evaluation Understudy) 是一種評(píng)估機(jī)器翻譯文本的指標(biāo),但也可用于評(píng)估生成文本的質(zhì)量,通過比較機(jī)器生成的文本和人類生成的參考文本的重疊程度。BLEU 得分是一個(gè) 0 到 1 之間的數(shù)字,用于衡量機(jī)器翻譯文本與一組高質(zhì)量參考翻譯的相似度。0 表示機(jī)器翻譯的輸出與參考翻譯沒有重疊(低質(zhì)量),而 1 表示其與參考翻譯完全重疊(高質(zhì)量)。

 

BLEU評(píng)分是由Kishore Papineni等人2002年的論文《BLEU: a Method for Automatic Evaluation of Machine Translation》中提出的。默認(rèn)情況下,sentence_bleu()和corpus_bleu()分?jǐn)?shù)計(jì)算累加的4元組BLEU分?jǐn)?shù),也稱為BLEU-4分?jǐn)?shù),一般簡寫為B4。

 

ROUGE (Recall-Oriented Understudy for Gisting Evaluation),可以看做是BLEU 的改進(jìn)版,專注于召回率而非精度。換句話說,它會(huì)查看有多少個(gè)參考譯句中的 n 元詞組出現(xiàn)在了輸出之中。

 

CIDEr (Consensus-based Image Description Evaluation)專門為圖像描述任務(wù)設(shè)計(jì),CIDEr更接近人類去判斷兩個(gè)句子是否相近的原理,因?yàn)樗昧薚F-IDF來對(duì)不同n-gram去賦予不同的權(quán)重,直觀來說,即經(jīng)常出現(xiàn)的詞組的權(quán)重具有更低的權(quán)重,而不常出現(xiàn)的詞組則更特殊(具有更大的權(quán)重),人們會(huì)更注意這些特殊的單詞。

 

除了VQA外,不同的benchmark會(huì)有不同的側(cè)重點(diǎn)和評(píng)分體系,比如武漢大學(xué)與中科慧拓提出的DriveMLLM benchmark,側(cè)重于VLM模型的空間理解能力。

 

論文《AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving》

 

小米汽車AgentThink使用DriveMLLM測(cè)試,L/R代表左右邊界,F(xiàn)/B代表前后邊界,Relative Horizontal Distance關(guān)聯(lián)水平距離 (RHD), Relative Distance關(guān)聯(lián)距離 (RD), Camera Vertical Distance攝像頭垂直距離 (CVD), Camera Distance 攝像頭距離(CD) Position Localization Accuracy 定位精度(Task PPos),Bounding Box Accuracy 邊界框精度(Task BBox),The Aggregate Accuracy Score累積精度 (AccS)。

 

復(fù)旦和華為諾亞方舟實(shí)驗(yàn)室的Reason2Drive,側(cè)重于VLM的推理能力測(cè)試,擁有超過60萬個(gè)視頻-文本對(duì)的基準(zhǔn)數(shù)據(jù)集,旨在促進(jìn)復(fù)雜駕駛環(huán)境中可解釋推理的研究。將自動(dòng)駕駛過程明確地描述為感知、預(yù)測(cè)和推理步驟的順序組合,問答對(duì)是從各種開源戶外駕駛數(shù)據(jù)集中自動(dòng)收集的,包括nuScenes、Waymo和ONCE,標(biāo)注長度達(dá)633K,在VLM Benchmark里排名第一。

 

2025年6月11日發(fā)布的AD2-BENCH,是中科院和騰訊CDG聯(lián)合推出的側(cè)重于多模態(tài)大模型的推理能力測(cè)試,與其他高?;蚱髽I(yè)的benchmark采用自動(dòng)生成標(biāo)注的方法不同,財(cái)大氣粗的騰訊采用全人工專家標(biāo)注,準(zhǔn)確度是明顯比自動(dòng)生成要高。

 

AD2-BENCH搜集了10K道路實(shí)拍數(shù)據(jù),70K的VQA問答,5406個(gè)實(shí)例包括全思維鏈,所有VQA和思維鏈都采用專家人工標(biāo)注,集成了 region,文本 text,point-level(疑似是點(diǎn)云級(jí)) visual prompts 和可確定的轉(zhuǎn)向模式explicitly steers model。

 

AD2-BENCH對(duì)主流多模態(tài)大模型的推理能力打分

數(shù)據(jù)來源:論文《AD2-Bench: A Hierarchical CoT Benchmark for MLLM in Autonomous Driving under Adverse Conditions》

 

值得一提的還有理想汽車的DriveAction,2025年6月9日剛剛發(fā)布,論文為DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models,作者全部都是理想汽車的研發(fā)人員,沒有高校參與。

 

DriveAction數(shù)據(jù)集源自量產(chǎn)車輛內(nèi)部測(cè)試用戶主動(dòng)收集的真實(shí)世界數(shù)據(jù),與以往依賴自收集或開源數(shù)據(jù)的基準(zhǔn)不同,它覆蓋了中國148個(gè)城市以及所有量產(chǎn)車型的記錄。通過多輪人工篩選和質(zhì)量控制,確保了駕駛場(chǎng)景和動(dòng)作的全面性和代表性。

 

該數(shù)據(jù)集涵蓋了7大關(guān)鍵場(chǎng)景類別,包括匝道/側(cè)路合并/分離、導(dǎo)航/效率驅(qū)動(dòng)的變道、繞行弱勢(shì)道路使用者、復(fù)雜路口等。每個(gè)場(chǎng)景都關(guān)聯(lián)了多種細(xì)粒度動(dòng)作,如變道、減速、繞行等,能夠詳細(xì)分析不同駕駛情況下的決策過程。DriveAction的動(dòng)作標(biāo)簽直接來源于用戶的實(shí)時(shí)駕駛操作,能夠準(zhǔn)確捕捉駕駛員決策時(shí)的真實(shí)意圖。為了與端到端大型模型的輸出粒度匹配,這些標(biāo)簽被離散化為高級(jí)動(dòng)作,更好地反映了人類駕駛決策的分類性質(zhì)。所有標(biāo)簽都經(jīng)過多輪人工驗(yàn)證,排除了錯(cuò)誤、不合理或非法的行為,如意外的控制輸入、與交通環(huán)境不符的突然停車、違反交通規(guī)則的動(dòng)作等,確保了標(biāo)注的可靠性和有效性。

 

DriveAction Benchmark示例

圖片來源:論文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》

 

DriveAction引入了以動(dòng)作為根的樹狀結(jié)構(gòu)評(píng)估框架,該框架基于動(dòng)作決策動(dòng)態(tài)映射所需的視覺和語言任務(wù),通過整合豐富的context場(chǎng)景信息,確保模型決策在完整、現(xiàn)實(shí)的環(huán)境中進(jìn)行。

 

任務(wù)定義:該框架將評(píng)估邏輯設(shè)計(jì)為以動(dòng)作為根的樹狀結(jié)構(gòu),上層是動(dòng)作節(jié)點(diǎn)(如變道、路口轉(zhuǎn)彎等),中間層是語言任務(wù)(如導(dǎo)航跟隨、交通燈跟隨等),底層是視覺任務(wù)(如車道、交通標(biāo)志、障礙物檢測(cè)等)。這種結(jié)構(gòu)系統(tǒng)地將V-L-A任務(wù)整合到一個(gè)可擴(kuò)展的框架中,支持針對(duì)每個(gè)動(dòng)作的動(dòng)態(tài)子任務(wù)組合,即使在復(fù)雜或長尾場(chǎng)景中也能進(jìn)行全面的決策評(píng)估。

 

場(chǎng)景信息設(shè)計(jì):為模型評(píng)估提供了三種關(guān)鍵場(chǎng)景信息,包括連續(xù)的視覺幀(支持動(dòng)態(tài)上下文中的時(shí)間推理)、導(dǎo)航指令(提供路線指導(dǎo)、即將到來的轉(zhuǎn)彎和目標(biāo)車道信息)、車輛速度(量化當(dāng)前和期望的駕駛狀態(tài))。這些信息對(duì)于可靠和上下文感知的自動(dòng)駕駛評(píng)估至關(guān)重要,能夠有效減少模型的幻覺決策。

 

靈活的評(píng)估模式:支持綜合評(píng)估和特定任務(wù)評(píng)估兩種模式。綜合評(píng)估關(guān)注模型的最終決策輸出,通過四種評(píng)估模式(全流程模式V-L-A、僅視覺模式V-A、僅語言模式L-A、無信息模式A)分析視覺和語言信息對(duì)整體動(dòng)作決策的影響;特定任務(wù)評(píng)估則對(duì)層次樹結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)進(jìn)行細(xì)粒度評(píng)估,幫助識(shí)別模型在感知、推理和決策技能方面的優(yōu)勢(shì)和劣勢(shì)。

 

幾種多模態(tài)大模型的評(píng)分

數(shù)據(jù)來源:論文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》

 

目前端到端自動(dòng)駕駛的評(píng)估體系還未完全建立,高校和企業(yè)都在自建評(píng)估體系,并且這些評(píng)估體系都是仿真的,都達(dá)不到嚴(yán)格意義上的閉環(huán)評(píng)估,這或許是端到端自動(dòng)駕駛給智能駕駛管理系統(tǒng)出的難題,不過這并不阻礙端到端自動(dòng)駕駛的量產(chǎn)上車。

 

免責(zé)說明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng),不具有任何指導(dǎo)、投資和決策意見。

 

 

更多佐思報(bào)告

 

 

佐思2025年研究報(bào)告撰寫計(jì)劃

智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)鏈全景圖(2024年12月版)

 

云端和AI
車云 OTA研究 智能駕駛仿真
汽車云服務(wù)研究 自動(dòng)駕駛地圖
TSP與應(yīng)用服務(wù) V2X和車路協(xié)同
數(shù)據(jù)閉環(huán)研究 路側(cè)智能感知
車路云一體化研究
AI大模型 汽車AI大模型研究 AI大模型對(duì)整車智能化影響
座艙AI應(yīng)用研究 車載AI Agent產(chǎn)品開發(fā)與商業(yè)化
AI定義汽車
智駕系統(tǒng)集成和應(yīng)用層
自動(dòng)駕駛應(yīng)用框架 ADAS與自動(dòng)駕駛Tier1-國內(nèi) 自主品牌ADAS
ADAS與自動(dòng)駕駛Tier1-國外 國外OEM ADAS研究
L3/L4級(jí)自動(dòng)駕駛和初創(chuàng)企業(yè) 理想L8/L9功能拆解
智能駕駛Tier1前10強(qiáng)對(duì)比 日本Tier1先進(jìn)技術(shù)研究
自動(dòng)駕駛算法和系統(tǒng) 端到端智駕研究 行泊一體研究
冗余系統(tǒng) 艙泊一體
智駕融合算法 艙行泊融合
汽車視覺算法 無人配送車
領(lǐng)航輔助駕駛(NOA)
感知 毫米波雷達(dá) 汽車視覺
激光雷達(dá)研究 紅外夜視
激光雷達(dá)核心部件 車用超聲波雷達(dá)
軟件定義雷達(dá) 車載攝像頭Tier2
MEMS傳感器 前視一體機(jī)
智艙系統(tǒng)集成和應(yīng)用層
智能座艙應(yīng)用框架 智能座艙Tier1 座艙設(shè)計(jì)趨勢(shì)
智能座艙平臺(tái)
座艙顯示 車載XR研究 HUD產(chǎn)業(yè)鏈
儀表和中控顯示 電子后視鏡
座艙多屏與聯(lián)屏 行車記錄儀
HUD產(chǎn)業(yè)研究 智能玻璃
座艙交互 車載語音 車載香氛與空氣凈化
艙內(nèi)監(jiān)控研究 汽車音響
汽車多模態(tài)交互 智能表面
手勢(shì)交互發(fā)展
座艙互聯(lián)娛樂與生態(tài) 汽車生態(tài)域 自主品牌車聯(lián)網(wǎng)
汽車數(shù)字鑰匙 合資品牌車聯(lián)網(wǎng)
車載支付 新勢(shì)力品牌車聯(lián)網(wǎng)
車載信息娛樂 商用車車聯(lián)網(wǎng)
汽車eCall系統(tǒng) 商用車智能座艙
座艙其他 汽車舒適系統(tǒng) 智能車
汽車照明 上海車展75項(xiàng)趨勢(shì)
車載無線充電 兩輪車智能化
AI/AR眼鏡研究
OS和支撐層
SDV框架 SDV:OEM軟件開發(fā)和供應(yīng)鏈部署策略 汽車軟件業(yè)務(wù)模式
SDV: SOA中間件
基礎(chǔ)軟件/系統(tǒng)平臺(tái) AUTOSAR研究 汽車操作系統(tǒng)
數(shù)字儀表OS
信息安全/功能安全 汽車信息安全 汽車功能安全
電子電氣架構(gòu)層
E/E架構(gòu)框架 E/E架構(gòu) 汽車電子代工
48V低壓供電網(wǎng)絡(luò)
智駕域 自動(dòng)駕駛SoC ADAS域控組件
自動(dòng)駕駛域控
座艙域 智能座艙平臺(tái) 座艙域控
座艙SoC 8295座艙域控制器拆解
車控域 車身(區(qū))域控研究 汽車VCU研究
電驅(qū)動(dòng)和動(dòng)力域控制器
通信/網(wǎng)絡(luò)域 車內(nèi)通信芯片 商用車T-Box
無線通訊模組 高精度定位
汽車網(wǎng)關(guān) 車載天線
乘用車T-Box 汽車UWB研究
跨域融合 多域計(jì)算和區(qū)域控制器
區(qū)域和中央計(jì)算 車身(區(qū))域控研究
其他芯片 汽車MCU研究 車用RISC-V研究
車載存儲(chǔ)芯片 傳感器芯片
電源管理芯片 汽車CIS研究
汽車芯片供應(yīng)鏈研究
動(dòng)力層
動(dòng)力 混合動(dòng)力報(bào)告 電源管理芯片
800V高壓平臺(tái) 電驅(qū)動(dòng)與動(dòng)力域研究
IGBTSiC研究
能源 一體化電池 充換電研究
燃料電池 移動(dòng)充電機(jī)器人
固態(tài)電池 數(shù)字電源及芯片
其他 熱管理系統(tǒng) 一體化壓鑄

汽車微電機(jī)及運(yùn)動(dòng)機(jī)構(gòu)研究

機(jī)械層
底盤/執(zhí)行 乘用車底盤域控 電控懸架
線控制動(dòng)&AEB 智能轉(zhuǎn)向關(guān)鍵組件
轉(zhuǎn)向系統(tǒng) 商用車智能底盤
滑板底盤研究 數(shù)字底盤研究

 

AI機(jī)器人
AI機(jī)器人 PBV及汽車機(jī)器人 無人配送車
移動(dòng)充電機(jī)器人 飛行汽車
具身智能研究
其他宏觀
車型平臺(tái) 車企模塊化平臺(tái) 主機(jī)廠車型規(guī)劃研究
出海 主機(jī)廠海外布局 座艙出海研究
政策、標(biāo)準(zhǔn)、準(zhǔn)入 智駕法規(guī)和汽車出海 自動(dòng)駕駛標(biāo)準(zhǔn)與認(rèn)證
其他

新技術(shù)應(yīng)用趨勢(shì)

24-25年新車及供應(yīng)商趨勢(shì)

 

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄