作者 | 章漣漪,編輯 | 邱鍇俊
如何用AI打造“有趣的靈魂”?商湯絕影從智艙到智駕,全方位給出了自己的答案。
4月23日,2025上海車(chē)展上,商湯絕影對(duì)外展示了系列生成式AI汽車(chē)產(chǎn)品。其中,智駕領(lǐng)域包括生成式智駕R-UniAD技術(shù)方案、近實(shí)時(shí)在線交互的4D世界模型“絕影開(kāi)悟2.0”;智艙領(lǐng)域包括專為車(chē)載AIOS打造的AI內(nèi)核“絕影千機(jī)”,以及全新升級(jí)的“家庭新成員”等。
在商湯絕影CEO王曉剛看來(lái),智能汽車(chē)的范式演進(jìn)經(jīng)歷了三個(gè)階段。
第一個(gè)階段為完成點(diǎn)對(duì)點(diǎn)特定任務(wù)的工具;第二個(gè)階段伴隨著大模型的加持,逐漸變成了人類(lèi)的助手,可以完成各種通用的任務(wù);第三個(gè)階段開(kāi)始可以提供主動(dòng)的服務(wù)和情感的陪伴,成為家庭的新成員。
他希望,可以讓每一臺(tái)車(chē)都擁有有趣的靈魂。
從2021年商湯絕影首次以獨(dú)立品牌亮相,到如今系列生成式AI產(chǎn)品的發(fā)布。近4年時(shí)間,商湯絕影完成了在汽車(chē)領(lǐng)域全產(chǎn)品譜系的布局。下一步,在持續(xù)落地智能座艙的同時(shí),它也將全力推進(jìn)輔助駕駛方案的量產(chǎn)交付。
作為一家以相對(duì)“輕量化”的人工智能起家的企業(yè),商湯即將要在強(qiáng)“制造”的汽車(chē)智能化領(lǐng)域再次證明自己。
01、智駕進(jìn)入生成式階段,加速量產(chǎn)落地
與智能汽車(chē)的發(fā)展歷程一樣,王曉剛認(rèn)為,智駕演進(jìn)也經(jīng)歷了三個(gè)階段:規(guī)則式智駕、端到端智駕和生成式智駕。
“現(xiàn)在這個(gè)階段是端到端數(shù)據(jù)驅(qū)動(dòng)的方式?!痹诓稍L環(huán)節(jié),王曉剛稱,這種方式有自己的問(wèn)題。
一是它對(duì)于數(shù)據(jù)量和質(zhì)量的依賴。由于它是直接根據(jù)輸入的圖像視頻去推測(cè)車(chē)輛行駛軌跡,是模仿人類(lèi)駕駛的行為,但人類(lèi)在面對(duì)比較困境場(chǎng)景時(shí),90%的駕駛行為是不太好的,因此只有10%、甚至1%高水平的數(shù)據(jù),需要大量數(shù)據(jù)學(xué)習(xí),對(duì)數(shù)據(jù)深度依賴。
二是端到端自動(dòng)駕駛具有不確定性。一些問(wèn)題場(chǎng)景沒(méi)辦法復(fù)現(xiàn),它的解決方式是通過(guò)采集大量類(lèi)似的其他場(chǎng)景重新訓(xùn)練模型。模型更新后,之前所關(guān)心的特定場(chǎng)景能否被解決,是不一定,甚至存在已解決場(chǎng)景回退的現(xiàn)象。
如今,伴隨著對(duì)自動(dòng)駕駛安全性、確定性要求更高,更加依賴于云端的模擬仿真,包括大模型。
因此,王曉剛表示,下一個(gè)階段智能駕駛進(jìn)入到生成式階段,其中很重要的技術(shù)是世界模型。它能夠非常準(zhǔn)確的重建,并且模擬泛化現(xiàn)實(shí)物理世界,在重構(gòu)世界里去確定性的解決需要解決的問(wèn)題。同時(shí),還能基于該場(chǎng)景進(jìn)行泛化,生成出很多類(lèi)似問(wèn)題的場(chǎng)景。
“這些場(chǎng)景,無(wú)論是采集成本,還是危險(xiǎn)性都非常高?!蓖鯐詣偡Q,強(qiáng)化學(xué)習(xí)加上世界模型,能夠突破人類(lèi)駕駛行為的上限。
正是出于這樣的思考,去年11月,商湯絕影發(fā)布了“開(kāi)悟”世界模型。
今年以來(lái),受到deepseek的啟發(fā),商湯絕影把世界模型從1.0升級(jí)到2.0,同時(shí)也跟強(qiáng)化學(xué)習(xí)進(jìn)行了結(jié)合,發(fā)布了生成式智駕R-UniAD技術(shù)方案。在王曉剛看來(lái),“未來(lái)一定是在云端的研發(fā)比重越來(lái)越重?!?/p>
本屆上海車(chē)展上,商湯絕影全面展示了R-UniAD技術(shù)方案,基于世界模型和強(qiáng)化學(xué)習(xí)兩大核心技術(shù),構(gòu)建集“視覺(jué)-語(yǔ)言-行動(dòng)-強(qiáng)化學(xué)習(xí)”于一體的VLAR技術(shù)架構(gòu)。
王曉剛以“施工占道場(chǎng)景”為例,講述了VLAR技術(shù)架構(gòu)是如何處理這一問(wèn)題的。
首先,以“施工占道剎?!甭窚y(cè)視頻作為輸入,R-UniAD基于“絕影開(kāi)悟”世界進(jìn)行模型4D仿真復(fù)現(xiàn),然后端到端模型生成該場(chǎng)景下各種可能駕駛策略,并與世界模型生成的環(huán)境交互,反復(fù)強(qiáng)化學(xué)習(xí)中找到最優(yōu)路徑,能預(yù)判施工占道,變道繞行。經(jīng)過(guò)泛化訓(xùn)練后,遇到類(lèi)似場(chǎng)景,端到端模型也能及時(shí)變道,并顯著提升對(duì)此類(lèi)施工場(chǎng)景的泛化交互能力。
王曉剛指出,生成式R-UniAD突破了現(xiàn)階段端到端范式下數(shù)據(jù)、安全和性能的三大瓶頸,將實(shí)采場(chǎng)景數(shù)據(jù)的需求降低兩個(gè)數(shù)量級(jí);同時(shí),基于強(qiáng)化學(xué)習(xí)算法,模型充分探索多元場(chǎng)景的安全邊界;最終,R-UniAD將能夠?qū)崿F(xiàn)遠(yuǎn)超人類(lèi)的駕駛能力。
至于世界模型,則是生成式智駕的基石所在。如果說(shuō)R-UniAD是“AI駕駛員”,那么這個(gè)世界模型就是它的“駕?!薄?/p>
相比1.0版本主要聚焦2D視頻生成技術(shù)的打磨,2.0版本則進(jìn)化為近實(shí)時(shí)在線交互的4D世界模型,能夠?qū)崿F(xiàn)“4D空間自由交互”。
“絕影開(kāi)悟2.0”具備三大能力,首先是“面向量產(chǎn)的數(shù)據(jù)生成”,它具有多樣性場(chǎng)景的可控生成的能力,能一鍵生成極端高風(fēng)險(xiǎn)場(chǎng)景;其次能實(shí)現(xiàn)“復(fù)雜場(chǎng)景自由復(fù)現(xiàn)”,可以根據(jù)不同的需求,修改和調(diào)整場(chǎng)景中的各種要素;最后具備近實(shí)時(shí)交互能力,比行業(yè)SOTA提升5倍之多,讓仿真訓(xùn)練過(guò)程更加高效和逼真,同時(shí)感知結(jié)果接近真實(shí)精標(biāo)數(shù)據(jù)98%。
有了世界模型和云端訓(xùn)練之后,對(duì)于車(chē)端的算力要求依然有需求。
在王曉剛看來(lái),類(lèi)似deepseek的一些技術(shù)路線的出現(xiàn),可以通過(guò)MOE架構(gòu),減少一系列工程化,在同等規(guī)模的參數(shù)規(guī)模情況下降低對(duì)算力的依賴?!暗肋h(yuǎn)都是當(dāng)算力越大的時(shí)候,它能夠應(yīng)對(duì)場(chǎng)景復(fù)雜程度能力越強(qiáng),這個(gè)趨勢(shì)是確定的,所以算力的要求和模型的能力還是有一個(gè)正比的關(guān)系?!?/p>
技術(shù)不斷升級(jí)的同時(shí),商湯絕影也在加速推進(jìn)智駕落地。王曉剛表示,厚積薄發(fā),絕影要全力推進(jìn)輔助駕駛方案的量產(chǎn)交付。
在輔助駕駛領(lǐng)域,商湯絕影主要有三套方案,基于地平線J6E打造的AD Pro行泊一體方案;基于地平線J6M打造的AD Max城區(qū)領(lǐng)航;基于英偉達(dá)Orin/地平線J6P打造的端到端智駕方案。
截至目前,其量產(chǎn)方案已合作中國(guó)一汽、廣汽集團(tuán)、奇瑞汽車(chē)和東風(fēng)汽車(chē)4家車(chē)企,上車(chē)7款車(chē)型。
發(fā)布會(huì)上,王曉剛宣布,在英偉達(dá)DIRVE AGX Thor平臺(tái)部署的絕影UniAD一段式端到端量產(chǎn)方案將于2025年第四季度量產(chǎn)交付東風(fēng)汽車(chē)。
除了端到端,東風(fēng)汽車(chē)還將與絕影在開(kāi)悟世界模型、DriveAGI等方面展開(kāi)深度合作。
未來(lái),商湯絕影在智駕領(lǐng)域量產(chǎn)將會(huì)不斷提速,并加速新技術(shù)的落地?!拔覀?cè)谂c車(chē)企合作過(guò)程中,也在幫助提升他們的L3解決方案?!蓖鯐詣?cè)缡钦f(shuō)。
02、智艙“有趣升級(jí)”,發(fā)布全新AI內(nèi)核
與智駕后來(lái)者身份,尋求“厚積薄發(fā)”不同,智能座艙一直是商湯的強(qiáng)項(xiàng),其座艙AI軟件市場(chǎng)份額已連續(xù)5年位列行業(yè)第一。
截至2024年底,商湯絕影已與超30家國(guó)內(nèi)外車(chē)企達(dá)成合作,覆蓋130余款車(chē)型,量產(chǎn)交付累計(jì)突破360萬(wàn)輛,其中多數(shù)為座艙領(lǐng)域。
商湯絕影在智能座艙領(lǐng)域主打的是“有趣靈魂”。
去年“絕影日”期間,商湯絕影發(fā)布了“A New Member For U”(你的家庭新成員),其三大特點(diǎn)是察言觀色,無(wú)時(shí)不在,心有靈犀,背后的技術(shù)支撐是原生流式多模態(tài)的大模型。
今年上海車(chē)展上,商湯絕影又對(duì)其進(jìn)行了升級(jí),背后融入了“DeepSeek”的思路。
實(shí)際上,自DeepSeek“火了”后,很多車(chē)企將其接入座艙之中。對(duì)此,王曉剛表示,如果只是非常簡(jiǎn)單的把DeepSeek連接到座艙里面,其實(shí)是不適合的,因?yàn)槠湓O(shè)計(jì)并不是為了座艙的交互環(huán)境,需要在車(chē)艙進(jìn)行優(yōu)化。
當(dāng)然,他也認(rèn)為,DeepSeek加入后的想象空間。他表示,同樣的算力,通過(guò)MOE的架構(gòu),可以去部署更大的模型,這些模型可以節(jié)省帶寬、節(jié)省算力,帶來(lái)更好的體驗(yàn),這也是商湯絕影研發(fā)的方向。
“我們是把DeepSeek中核心技術(shù)用到了SenseAuto-chat模型里,進(jìn)行了升級(jí)。同時(shí),結(jié)合多模態(tài)的模型,實(shí)現(xiàn)了深度推理?!蓖鯐詣傊赋觯碌摹癗ew Member”則是基于此打造,帶來(lái)了三大核心功能。
首先是擁有了多模態(tài)識(shí)人能力,不需要用戶專門(mén)進(jìn)行注冊(cè),它在座艙多人交互的過(guò)程推測(cè)出每個(gè)人的名字,與相貌的結(jié)合,人物之間的關(guān)系,并在與用戶長(zhǎng)期互動(dòng)過(guò)程當(dāng)中,記住生活的點(diǎn)滴,產(chǎn)生共情,從而更貼心地進(jìn)行互動(dòng)。
其實(shí)是具備深度思考的能力。當(dāng)用戶提出需求時(shí),它會(huì)結(jié)合記憶與場(chǎng)景,主動(dòng)分析疲憊情緒、家庭需求甚至天氣變化進(jìn)行綜合性的深度思考,然后給出最合適的方案。
最后,是免喚醒的多人多輪對(duì)話能力。之前行業(yè)做到的是大模型一對(duì)一的交流,如今New Member未被喚醒也能關(guān)注并理解座艙內(nèi)成員間的對(duì)話,并能隨時(shí)參與到對(duì)話當(dāng)中,做到“不過(guò)度打擾,但時(shí)刻陪伴”。
有趣靈魂背后,需要強(qiáng)大技術(shù)底座支撐。為此,商湯絕影打造了類(lèi)人情感的AI內(nèi)核,即專為車(chē)載AIOS打造的AI內(nèi)核“絕影千機(jī)”。
王曉剛表示,該產(chǎn)品最核心的三大技術(shù)包括MOE多模態(tài)大模型、類(lèi)人記憶框架以及原生智能體框架。同時(shí),AI 基礎(chǔ)系統(tǒng)模塊、AIOS 工具鏈和生成式UI等外圍技術(shù),為三大核心模塊提供支持與交互。
“現(xiàn)有的這些操作系統(tǒng),包括車(chē)企的,覆蓋范圍比較廣?!蓖鯐詣偡Q,商湯絕影的“千機(jī)”更關(guān)注AI相關(guān)的大模型,這些也是商湯的強(qiáng)項(xiàng)。未來(lái),絕影將把這些AI內(nèi)核和主機(jī)廠操作系統(tǒng)結(jié)合在一起,形成AI的操作系統(tǒng),推動(dòng)智能座艙向更加高級(jí)的智能體進(jìn)化。
王曉剛還強(qiáng)調(diào),依托于“日日新SenseNova V6”基模型,商湯絕影構(gòu)建了覆蓋0.1B至70B汽車(chē)垂類(lèi)模型矩陣,模型首字延遲小于300ms,吐字速度高達(dá)47 Tokens/s,性能超越DeepSeek,還能在快慢思考之間自如切換,以滿足各種場(chǎng)景需求。
同時(shí),具備類(lèi)人情感的座艙系統(tǒng),離不開(kāi)記憶。商湯絕影構(gòu)建了業(yè)內(nèi)首個(gè)端側(cè)類(lèi)人記憶框架,賦予AIOS真正的認(rèn)知力與成長(zhǎng)性,每一次交互都讓它更懂用戶。
為了便于打造智能體生態(tài),商湯絕影還構(gòu)建了業(yè)內(nèi)首個(gè)支持MCP協(xié)議的端側(cè)原生智能體框架。它具備自主規(guī)劃能力,可進(jìn)行多步的精準(zhǔn)規(guī)劃和執(zhí)行。它支持MCP規(guī)范,能快速接入各類(lèi)生態(tài)服務(wù)和工具能力,目前已集成100+智能體與1000+ API。這個(gè)框架還支持多智能體協(xié)調(diào)機(jī)制,能夠?qū)崿F(xiàn)并發(fā)、串行及混合模式下的高效協(xié)同,整體性能提升超過(guò)30%。
此外,基于語(yǔ)言大模型、多模態(tài)大模型、文生圖大模型和“大醫(yī)”醫(yī)療大模型等組成的 AI 大模型體系,商湯絕影構(gòu)建了健康管家、安全衛(wèi)士、3D交互等AI座艙創(chuàng)新產(chǎn)品矩陣。不斷升級(jí)智能座艙相關(guān)產(chǎn)品。
智駕落地加速、智艙不斷創(chuàng)新。在AI與汽車(chē)深度融合的新時(shí)代,商湯絕影在智能汽車(chē)領(lǐng)域的探索還在不斷深入。