具身智能的“ChatGPT時(shí)刻”何時(shí)到來?在2025中關(guān)村論壇“未來人工智能先鋒論壇”上,上海交通大學(xué)教授、穹徹智能聯(lián)合創(chuàng)始人盧策吾,星動(dòng)紀(jì)元?jiǎng)?chuàng)始人陳建宇,銀河通用創(chuàng)始人兼CTO王鶴,樂聚機(jī)器人創(chuàng)始人、董事長冷曉琨,北京智源人工智能研究院院長王仲遠(yuǎn)圍繞這一熱點(diǎn)話題分別表達(dá)了自己的觀點(diǎn)和預(yù)測。
盧策吾:我認(rèn)為,具身智能的“ChatGPT時(shí)刻”不是一蹴而就的,它應(yīng)該是通過突破一批又一批成熟的應(yīng)用場景推動(dòng)實(shí)現(xiàn)階梯上升的。當(dāng)大家發(fā)現(xiàn)身邊越來越多的應(yīng)用場景使用了具身智能技術(shù)的時(shí)候,“ChatGPT時(shí)刻”很可能就會(huì)伴隨一個(gè)更大技術(shù)創(chuàng)新和機(jī)會(huì)而來。時(shí)間點(diǎn)我不好預(yù)測,但是我認(rèn)為未來每1~2年具身智能就會(huì)實(shí)現(xiàn)階梯性的進(jìn)步,這是確定性比較高的。目前來看,從我公司的發(fā)展角度,我認(rèn)為物流PMP抓取放、食品加工等應(yīng)用場景會(huì)實(shí)現(xiàn)具身智能應(yīng)用的率先突破。
陳建宇:我覺得實(shí)現(xiàn)的時(shí)間點(diǎn)要看如何定義具身智能機(jī)器人的“ChatGPT時(shí)刻”,如果標(biāo)準(zhǔn)比較高那么它突破性爆發(fā)的時(shí)間點(diǎn)就會(huì)比較遠(yuǎn)。如果要達(dá)到類比語言模型的“ChatGPT時(shí)刻”——這個(gè)Agent可以開放給每一個(gè)人用,大家都可以去問他任意的問題,Agent都能回答得不錯(cuò),可以為用戶帶來驚喜的標(biāo)準(zhǔn)。一個(gè)具身智能機(jī)器人放到任意某個(gè)家庭的某個(gè)場景里,用戶要讓他隨便干活,這個(gè)機(jī)器人都可以完成得不錯(cuò)。如果要實(shí)現(xiàn)上述的功能,這還是一個(gè)比較高的標(biāo)準(zhǔn),大概要三年以上的時(shí)間實(shí)現(xiàn)。不過這并不妨礙我們近1~2年就在特定場景中去應(yīng)用具身智能機(jī)器人,因?yàn)檎Z言模型的1.0和2.0已經(jīng)可以在一些垂直場景中使用了。
王鶴:盡管現(xiàn)在人形機(jī)器人全面應(yīng)用的呼聲很高,但是我認(rèn)為它發(fā)展到“ChatGPT時(shí)刻”還是有很長的路要走。因?yàn)榫呱碇悄芎腿诵螜C(jī)器人產(chǎn)業(yè)中,人工智能和硬件是相互聯(lián)系的,它倆是會(huì)輪流成為產(chǎn)業(yè)發(fā)展的瓶頸,也是需要共同進(jìn)步的。目前在中關(guān)村論壇的場館內(nèi),銀河通用的輪式機(jī)器人已經(jīng)可以給大家在貨架上拿取物品。在這種無人零售的貨架場景基本用不到腿,我們認(rèn)為這種輪式機(jī)器人便宜可靠續(xù)航時(shí)間還長,已經(jīng)可以滿足基本需求了。我們預(yù)計(jì)在2026年人形機(jī)器人在智能貨架場景的應(yīng)用將全面實(shí)現(xiàn)突破,如果輪式人形機(jī)器人在這單一場景的出貨量已經(jīng)達(dá)到十萬級(jí)別,那它算不算“ChatGPT時(shí)刻”?它雖然沒有讓每個(gè)人都用上人形機(jī)器人,但是對于24小時(shí)的值守店來說是有很高的價(jià)值的事情。當(dāng)人形機(jī)器人走入家庭場景,這個(gè)場景就會(huì)對硬件提出更高的要求——成本高、噪聲小、續(xù)航高,甚至還有更多想不到的需求——例如人形機(jī)器人應(yīng)用在養(yǎng)老場景,需要抱起老人,那么鋼材質(zhì)的機(jī)械臂就不符合人們預(yù)期了,就需要進(jìn)一步去完善……從這個(gè)角度實(shí)現(xiàn)具身智能“ChatGPT時(shí)刻”的就會(huì)在更遙遠(yuǎn)的時(shí)間點(diǎn)。
冷曉琨:我認(rèn)為大語言模型的“ChatGPT時(shí)刻”在具身智能產(chǎn)業(yè)中大概無法復(fù)制。因?yàn)榫呱碇悄苁且粋€(gè)軟件硬件相互耦合的產(chǎn)業(yè),AI某個(gè)領(lǐng)域的最新Demo產(chǎn)生后,軟件就會(huì)迎來一個(gè)爆發(fā)。但是具身智能機(jī)器人涉及硬件的部分,硬件產(chǎn)業(yè)的發(fā)展規(guī)律是無法跨越的——我認(rèn)為具身智能機(jī)器人從實(shí)驗(yàn)室產(chǎn)品發(fā)展到產(chǎn)業(yè)化產(chǎn)品,至少要走3~5年的時(shí)間。等硬件真正實(shí)現(xiàn)產(chǎn)業(yè)化后,還要再將AI智能的部分耦合進(jìn)入硬件本體中不斷調(diào)試,軟硬件相互融合后,才能最終迎來這種大規(guī)模爆發(fā)。我也一直認(rèn)為,具身智能機(jī)器人的爆發(fā)可能沒有突然眼前一亮的時(shí)刻,而是一個(gè)潤物細(xì)無聲的過程——可能在5年或者10年后的某一天,人們會(huì)發(fā)現(xiàn)具身智能已經(jīng)應(yīng)用在社會(huì)各個(gè)場景之中了。
王仲遠(yuǎn):我想從人工智能的第三次浪潮的發(fā)展脈絡(luò)來推測一下具身智能的發(fā)展時(shí)間。2006年,由圖靈獎(jiǎng)獲得者Geoffrey Hinton教授及其學(xué)生在Science雜志上發(fā)表的一篇重要論文引發(fā)深度學(xué)習(xí)的真正突破。但是直到2012年,Geoffrey Hinton團(tuán)隊(duì)在ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽上獲得冠軍后,神經(jīng)網(wǎng)絡(luò)才受到產(chǎn)業(yè)界的廣泛關(guān)注。以2012年為起點(diǎn),隨后深度學(xué)習(xí)在語音識(shí)別接連突破、Google先后推出Transformer模型架構(gòu)、Bert預(yù)訓(xùn)練語言模型??……直到2022年ChatGPT出現(xiàn),成為人工智能的一個(gè)標(biāo)志性里程碑。事實(shí)上,從2012年到2022年,深度學(xué)習(xí)1.0時(shí)代已經(jīng)過了10年。
類比人工智能的發(fā)展脈絡(luò),具身智能現(xiàn)階段不僅受限于AI模型的發(fā)展,還受限于硬件的發(fā)展程度。所以具身智能既存在“先有雞先有蛋”的問題,也存在(軟硬件)相互制約的問題,當(dāng)然可能也存在相互促進(jìn)的情況。我認(rèn)為,具身智能比較可能率先在受限的場景下先具備可用性、一定的智能以及一定的泛化程度。隨著產(chǎn)業(yè)熱度提升資源的匯集,具身智能也許會(huì)比人工智能的發(fā)展更快一點(diǎn),例如相比人工智能發(fā)展到1.0時(shí)代歷經(jīng)10年,具身智能也許只用5年就完成,但是不會(huì)特別快實(shí)現(xiàn)。
作者丨王偉編輯丨邱江勇美編丨馬利亞監(jiān)制丨連曉東