英偉達GTC 2025大會上,吳新宙講解了英偉達的L3級自動駕駛系統(tǒng)NDAS(即NVIDIA DRIVE AV Solution),代號Alpamayo。
Alpamayo是阿爾帕瑪尤山(西班牙語:Nevado Alpamayo)是安第斯山脈的布蘭卡山脈其中一座最顯而易見的山峰,該山峰位于秘魯境內(nèi),海拔5947米。
第一版NDAS將于2025年4月推出,2027年1季度將推出雙Thor高速公路版L3,2027年底推出雙Thor城郊Urban版L3。主機廠什么都不需要做,只需要把靈魂交給英偉達即可。
英偉達智能駕駛的車端和云端
圖片來源:英偉達
從模型訓練,傳感器仿真、交通流仿真、合成數(shù)據(jù)、世界模型到模型部署,從VLM到VLA,英偉達都替主機廠想好了,只要主機廠掏錢就行。
Alpamayo實際就是端到端系統(tǒng)
圖片來源:英偉達
Alpamayo網(wǎng)絡架構
這里英偉達沒有細說token-to-token的意思,實際就是將串行token改為并行,LLM最常見的Decoder-only Transformers結構在解碼時, 通常會串行逐個生成token,如何并行解碼是LLM推理加速中比較獨特的方式。在過去有Speculative Decoding 能巧妙的實現(xiàn)“并行解碼”,但解碼過程需要有小模型(Draft Model)參與,使得工程實現(xiàn)和部署并不夠優(yōu)雅。
英偉達的Medusa 則提供了一種One Model 的并行解碼方案,其實現(xiàn)動機在于增加Multiple Decoding Heads 來做Next-Next-Token預測,提高預測效率,這里的Heads 和美杜莎的形象不謀而合。美杜莎(希臘語:Μ?δουσα;英語:Medusa)是古希臘神話中的蛇發(fā)女妖,頭上有九條蛇頭。英偉達有論文MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads。Medusa加速效果,相較baseline, Medusa-2 加速2.83x,在Math/Coding/Extraction 種類的推理任務中加速3x以上。訓練好的模型經(jīng)過美杜莎微調(diào)即為Alpamayo。
通常將常規(guī)的decoding過程稱為Next-Token 預測,將多token并行解碼定義為Next-Next-Tokens 預測,統(tǒng)一任務形式。Medusa 在現(xiàn)有模型基礎上,增加多個Medusa Head,與原模型上的LM Head 一同做預測。新增的Medusa Head 包含Block (可以多個堆疊)和分類頭,輸入為backbone模型的Last Hidden數(shù)據(jù),輸出為預測Token的概率。
美杜莎網(wǎng)絡架構
圖片來源:英偉達
MEDUSA 遵循推測解碼框架,其中每個解碼步驟主要由三個子步驟組成:(1) 生成候選者,(2) 處理候選者, (3) 接受候選者。
對于 MEDUSA,(1) 是通過 MEDUSA 頭(head)實現(xiàn)的,(2) 是通過樹注意力(tree attention)實現(xiàn)的,并且由于 MEDUSA 頭位于原始主干模型之上,因此 (2) 中計算的 logits 可以用于子步驟 (1) 的下一個解碼步驟。最后一步 (3) 可以通過拒絕采樣(rejection sampling)或典型接受(typical acceptance)來實現(xiàn)。有3個medusa頭,包含原LM_head模型一次性可以輸出1+3個token。
首先,MEDUSA 頭與原始主干模型一起進行訓練。其中,原始主干模型可以在訓練期間保持凍結狀態(tài) (MEDUSA-1) 或一起訓練 (MEDUSA-2)。這種方法甚至可以在單個 GPU 上微調(diào)大模型,利用強大的基礎模型學得表征。此外,MEDUSA 頭的分布確保與原始模型的分布一致,從而緩解了分布偏移問題,并且 MEDUSA 不會增加服務系統(tǒng)設計的復雜性,對分布式設置很友好。
樹狀掩碼注意力機制
圖片來源:英偉達
由于候選者增加會提高計算需求,該研究采用樹狀結構的注意力機制來同時處理多個候選者。這種注意力機制不同于傳統(tǒng)的因果注意力范式。在其框架內(nèi),只有來自同一 continuation的token才被視為歷史數(shù)據(jù)。
圖片來源:吳新宙GTC2025大會
Alpamayo模型訓練流程,第一步是互聯(lián)網(wǎng)知識預訓練,即LLM的第一步,數(shù)萬億乃至數(shù)十萬億token的互聯(lián)網(wǎng)知識搜集與訓練。第二步是異構駕駛數(shù)據(jù)訓練,應該是人工駕駛數(shù)據(jù)與合成駕駛數(shù)據(jù)訓練。第三步繼續(xù)加強訓練。第四步監(jiān)督數(shù)據(jù)微調(diào),主要是各種駕駛規(guī)則。第五步是強化學習訓練,主要是針對性長尾場景訓練,然后第六步,美杜莎訓練,量化部署上車。
英偉達L3架構
圖片來源:吳新宙GTC2025大會
上圖中,MRM是“Minimum Risk Maneuver” 最小風險狀態(tài),這是美國SAE汽車協(xié)會在2022年10月L3級自動駕駛標準上添加的一項功能安全,在某些情況下,當駕駛員可能無法響應fall-back就緒用戶請求時,系統(tǒng)應預期執(zhí)行一種被稱為“最小風險操作”(MRM)的安全操作。在關鍵操作條件下定義 MRM 的功能安全概念(FSC)是一項非常重要且具有挑戰(zhàn)性的活動。這里的MRM應該是一個模塊化或全局端到端路徑規(guī)劃器,加一個最低風險限制的輔助模塊,這個最低風險概念比較模糊,大概就是交通規(guī)則。對應MRM還有一個最低風險條件MRC (Minimal Risk Condition)。
MRC與MRM
圖片來源:論文Minimal Risk Maneuver Strategies for Cooperative and Collaborative Automated Vehicles
英偉達Halos
圖片來源:英偉達GTC2025大會
Halos 是涵蓋三個不同層面但互補的整體安全系統(tǒng):在技術層面,它包括平臺、算法和生態(tài)系統(tǒng)安全。在開發(fā)層面,它包括設計時、部署時和驗證時的防護措施。在計算層面,它包括 AI 訓練到部署,使用三個計算平臺方案:NVIDIA DGX 用于 AI 訓練、在 NVIDIA OVX 上運行用于仿真的 NVIDIA Omniverse 和世界模型 NVIDIA Cosmos 以及用于部署的 NVIDIA DRIVE AGX。
Halos 包括用于安全數(shù)據(jù)加載和加速庫,以及用于安全數(shù)據(jù)創(chuàng)建、管理和重建的應用編程接口,以便在訓練前過濾掉不良行為和偏差等。它還提供豐富的訓練、仿真和驗證環(huán)境,利用 NVIDIA Omniverse Blueprint 進行自動駕駛汽車仿真,結合 NVIDIA Cosmos 世界基礎模型進行自動駕駛汽車訓練、測試和驗證。此外,它還擁有一個多元化的自動駕駛汽車堆棧,將模塊化組件與端到端 AI 模型相結合,以確保安全的采用前沿 AI 模型。
Halos 包含多元且無偏見的安全數(shù)據(jù)集,以及安全部署流水線,它包括分級流水線和自動安全評估,和用于持續(xù)安全改進的數(shù)據(jù)飛輪,引領自動駕駛汽車安全標準和規(guī)范。
Halos 的切入點是 NVIDIA AI 系統(tǒng)檢測實驗室,汽車制造商和開發(fā)商可通過該實驗室驗證其產(chǎn)品與 NVIDIA 技術集成的安全性。在2025年初 CES 上推出的 AI 系統(tǒng)檢測實驗室是首個獲得美國國家標準學會國家認可委員會 (ANAB) 認證的全球計劃,它將功能安全、網(wǎng)絡安全、AI 安全和合規(guī)整合到一個統(tǒng)一安全框架中。AI 系統(tǒng)檢測實驗室的初創(chuàng)成員包括 Ficosa、OmniVision、onsemi 和大陸集團。
英偉達自動駕駛三大支柱
圖片來源:英偉達
顯然英偉達不僅要掌控靈魂(算法、芯片),大腦(模型訓練、仿真和世界模型)也要掌控。
免責說明:本文觀點和數(shù)據(jù)僅供參考,和實際情況可能存在偏差。本文不構成投資建議,文中所有觀點、數(shù)據(jù)僅代表筆者立場,不具有任何指導、投資和決策意見。