• 正文
    • 01、概念先行
    • 02、車端or云端?
  • 相關推薦
申請入駐 產業(yè)圖譜

開炒VLA,“端到端”過氣了?

2024/12/27
2204
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

端到端2.0時代,會“嗖”地一下來了?

2024年,智駕領域最熱的詞,就是“端到端”。甚至,到了不聊端到端都沒法出門的程度。

不過,在這個光速迭代的智能電動化時代,“端到端”會被迭代替掉,也是可想而知的。于是,VLM、VLA、世界模型……概念涌現,被譽為“端到端2.0”的VLA(Vision-Language-Action Model,視覺-語言-動作模型)閃亮登場。

在我之前的文章中曾經提到,根據規(guī)劃,奇瑞的VLA大概2026年會上。也就是,2026年完成VLA大模型的構建,2027年要達到具身智能(VLA是具身智能領域的新范式)的程度。

主機廠深度覺醒,但是,也要到2026年完成模型構建。所以說,開炒的VLA概念有那么快落地嗎?

01、概念先行

智駕概念不斷涌現,也代表各玩家的技術路線和投入側重。

實際上,“端到端”剛成為新的技術范式,甚至大量公司還沒來得及完成研發(fā)模式切換,端到端就又進化了。而“端到端”的最新進化方向是,深度融入多模態(tài)大模型,進入VLA模式。

就像年中理想汽車發(fā)布的名為“端到端+VLM”的雙系統(tǒng)架構,其中,端到端跑在一顆Orin X芯片上,VLM(視覺語言模型)跑在另一顆Orin X上。

隨后不久,元戎啟行CEO周光表示,預計明年推出VLA。其智駕方案將搭載在魏牌藍山上,僅需一顆Orin X芯片。

11月底,商湯絕影舉辦了自己的第一個AI DAY,亮出名為“開悟”的世界模型,可生成仿真數據,與量產實車采集的真實數據結合,共同重建物理世界。商湯絕影CTO肖楓還直接說:“‘地大華魔’頭部格局,已經是過去式了?!?/p>

事實上,VLA模型最早見于機器人行業(yè)。2023年7月28日,谷歌DeepMind推出了全球首個控制機器人的視覺語言動作(VLA)模型RT-2。其后,這個模型概念快速擴散到智駕領域。

今年10月底,谷歌旗下自動駕駛公司Waymo推出基于端到端的自動駕駛多模態(tài)模型EMMA。按照國內行業(yè)人士的理解,這就是一個VLA模型架構。

那么,VLA真的就會這么快來到嗎?說實話,我是不信的。就像全固態(tài)電池,還有智能底盤,行業(yè)內的“概念先行”歪風,在大模型領域也是如此。

實際上,商湯絕影CEO王曉剛不是也說,“端到端的發(fā)展還是要經歷一個過程,包括基礎設施、數據積累、數據仿真。要真正發(fā)揮它的威力,這不是一蹴而就的。”

理智地看下,在端到端才進入規(guī)模推廣之際,所謂端到端2.0的VLA方案立刻想落地面臨很現實的挑戰(zhàn)。

一方面,現階段車端芯片硬件還不足以支撐多模態(tài)大模型的部署落地。比如理想的端到端+VLM模型,對車端芯片硬件有相當高要求,目前是2顆英偉達OrinX芯片,算力達到508Tops。

不過,有行業(yè)人士表示,現階段車端的算力很難支撐VLA模型部署,需要像英偉達的最新一代車載AI芯片Thor的算力來支撐。再者,單片AI算力1000Tops的Thor大概率會延期發(fā)布,加上英偉達芯片的量產時間與成本挑戰(zhàn),對車企而言是個大問題。

還有個成本問題。比如,如果單顆Orin X可以搞定端到端,那么,搭載兩顆Orin X芯片的車,包括蔚來搭載四顆Orin X芯片的車,冗余是不是太多,算力是否太浪費?

當然,車企也會考慮用一些國內的自研大算力芯片。不過,這些都還是未知數。

除了算力,更具挑戰(zhàn)的是,如何將端到端與多模態(tài)大模型的數據與信息作深度融合。這考驗著車企智駕團隊的模型框架定義能力、模型快速迭代能力。只是,VLA技術路線的驟然升級與競賽變奏,為還沒發(fā)力端到端的玩家設置了更高門檻,看起來更加高不可攀。

02、車端or云端?

實際上,國內現在還在“卷”從“兩段式”的端到端到“一段式”的端到端,VLA哪能那么快呢?

按照博世智能駕控中國區(qū)總裁吳永橋的判斷,到明年,在國內應該只有1-2家企業(yè)能夠實現一段式端到端。

當然,從兩段式端到端逐步過渡到一段式端到端,最終實現世界模型的應用,這一路線圖正逐漸成為業(yè)內共識。這是一條車端到云端的路。

簡單來說,以端到端和VLA為代表的技術路線,側重車端,以世界模型為代表的技術路線,側重云端。當然,云端的爭奪也非常激烈,甚至有說法是,“未來競爭的核心在云端?!?/p>

而隨著下一代端到端到來,算力需求更大,智駕話語權的爭奪也更激烈。車端和云端,當下與未來,又如何權衡?這也考驗著車企的智慧。

實際上,云端的軍備競賽早就非常激烈。比如,今年7月理想汽車公布云端算力2.4 EFLOPS,最新數字是5.39 EFLOPS。小鵬汽車當前云端算力2.3 EFLOPS,預計明年達到10 EFLOPS。而去年9月問界M7改款發(fā)布會時,余承東披露華為云端算力為1.8 EFLOPS。最新數字已經到了7.5 EFLOPS。

從智駕競爭的終局來看,小鵬汽車認為,布局云端大模型才是制勝關鍵。而且,其選擇的云端大模型路線和Open AI所選擇的路線不謀而合。

根據小鵬的架構,云端大模型通過知識蒸餾,形成車端的端到端大模型。此外,云端大模型還被用于世界模型和數據的清洗和挖掘。在云端大模型的加持下,小鵬汽車的智駕參數量會比傳統(tǒng)車端大模型高80倍,帶來8倍有效視覺感知信息量。

這也是為什么,小鵬汽車的一套智駕軟件標配全車系,涵蓋SUV、轎車、轎跑、MPV等多車型。

不僅是小鵬汽車, 商湯絕影的“開悟”世界模型,基于商湯20 EFLOPS的云端算力,將能夠用“實車道路采集+世界模型生成”雙輪驅動,實現Corner Case數據生成。

蔚來在今年的NIO IN 2024創(chuàng)新科技日上,也發(fā)布了其智能駕駛世界模型NWM。該模型是一個具有全量理解數據、長時序推演和決策能力的智能駕駛世界模型。它能夠在100毫秒內推演出216種可能發(fā)生的場景,并尋找到最優(yōu)決策。

而對于加快云端算力儲備同時發(fā)力車端模型的理想來說,VLA、世界模型以及類似特斯拉的做法等幾個方向都在探索,并通過擴大端到端模型的體量,訓練出VLM的早期認知能力。

值得一提的是,數據量也成為下一代端到端的競爭核心。元戎啟行CEO周光認為,端到端1.0交付達到萬臺規(guī)模級就有挺好的效果。而真正做VLA,10萬臺可能只是一個入門券,要看誰能更快達到10萬臺交付規(guī)模。

當然,到底是從云端降維到車端,還是車端升維到云端,目前沒有統(tǒng)一的答案,各家眾說紛紜。只是,大家都不能回避的是,對算力的要求越來越高,成本越來越高。能不能留在牌桌上,是最大的問題。

這不,特斯拉的FSD V13版本已經出來了,馬斯克說能力提升500~1000%。那么,大家只有繼續(xù)卷咯。

作者丨王小西

責編丨北? ?岸

編輯丨王? ?越

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄