• 正文
    • 什么是具身智能?
    • 具身智能技術(shù),已獲長(zhǎng)足進(jìn)步
    • 具身智能的眼睛:多模態(tài)感知融合是趨勢(shì)
    • 具身智能的大腦:還沒(méi)到主拼算力的時(shí)候
    • 安霸在具身智能領(lǐng)域的下一步
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

專訪安霸:誰(shuí)在推動(dòng)具身智能從“能看”到“會(huì)想”?

原創(chuàng)
03/07 09:35
1747
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

自去年以來(lái),具身智能已成為繼大模型之后,人工智能領(lǐng)域內(nèi)討論熱度極高的議題,在投資圈更是備受追捧。

據(jù)市場(chǎng)監(jiān)管大數(shù)據(jù)中心數(shù)據(jù)顯示,截至2024年12月底,全國(guó)共有45.17萬(wàn)家智能機(jī)器人產(chǎn)業(yè)企業(yè),企業(yè)數(shù)量較2020年底增長(zhǎng)206.73%,較2023年底增長(zhǎng)19.39%,這一數(shù)據(jù)直觀體現(xiàn)出產(chǎn)業(yè)熱度對(duì)相關(guān)企業(yè)數(shù)量增長(zhǎng)的強(qiáng)勁帶動(dòng)。

資本市場(chǎng)也早早嗅到商機(jī),今年上半年大量資金涌入賽道。如成立僅一年的北京銀河通用機(jī)器人公司,先后斬獲美團(tuán)、商湯等知名企業(yè)的巨額投資;“稚暉君” 創(chuàng)立的智元機(jī)器人在過(guò)去一年完成七輪融資,估值飆升至70億元。

在消費(fèi)市場(chǎng),相關(guān)產(chǎn)品同樣火爆。2024年被稱為 “具身智能元年”,這一年里,LLM技術(shù)的加持讓具身智能產(chǎn)品備受矚目。

蔚藍(lán)科技的機(jī)器狗在抖音和小紅書(shū)等平臺(tái)爆賣(mài),銷量超過(guò)其他所有四足機(jī)器人總和,還在南京德基廣場(chǎng)開(kāi)設(shè)體驗(yàn)店,每次快閃都能引發(fā)整層樓的圍觀。不僅國(guó)內(nèi)如此,全球范圍內(nèi)人形機(jī)器人項(xiàng)目熱度居高不下,F(xiàn)igure 02、Atlas、1X、擎天柱等明星機(jī)器人頻繁引發(fā)外界關(guān)注。

再看行業(yè)預(yù)測(cè),QYResearch 報(bào)告顯示,到 2030 年全球具身智能機(jī)器人仿真平臺(tái)市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)8億美元,年復(fù)合增長(zhǎng)率CAGR高達(dá)47.7%,德邦證券也預(yù)判其發(fā)展空間廣闊。凡此種種,皆彰顯出具身智能當(dāng)下的火爆程度 。

什么是具身智能?

那么,到底什么是具身智能?它和人形機(jī)器人之間是什么關(guān)系?

我們可以通過(guò)拆字來(lái)解讀,“具身智能”中的“具”字表示“具有”“具備”,“具身”強(qiáng)調(diào)智能體具有身體或類似身體的實(shí)體結(jié)構(gòu),并且智能的產(chǎn)生和發(fā)展依賴于這個(gè)身體與環(huán)境的交互。

事實(shí)上,具身智能的思想可以追溯到20世紀(jì)80年代至90年代的人工智能和認(rèn)知科學(xué)研究。認(rèn)知科學(xué)家喬治·萊考夫(George Lakoff)和馬克·約翰遜(Mark Johnson)在1980年出版的《我們賴以生存的隱喻》(Metaphors We Live By)中,強(qiáng)調(diào)了身體經(jīng)驗(yàn)在認(rèn)知和語(yǔ)言理解中的重要性,為具身認(rèn)知的理論奠定了基礎(chǔ),這也與具身智能的理念緊密相關(guān)。

當(dāng)前,具身智能以人形機(jī)器人為主要表現(xiàn)形式,當(dāng)人形機(jī)器人通過(guò)它的身體在和環(huán)境交互的時(shí)候,它模仿人的動(dòng)作,學(xué)會(huì)像人一樣觀察、發(fā)現(xiàn)、思考、語(yǔ)音、和環(huán)境交互。

圖 | 安霸半導(dǎo)體技術(shù)(上海)有限公司研發(fā)副總裁孫魯毅,來(lái)源:安霸

對(duì)此,安霸半導(dǎo)體技術(shù)(上海)有限公司研發(fā)副總裁孫魯毅表示:“我們正在創(chuàng)造和不斷改進(jìn)一種新的事物,雖然它目前還是一種高級(jí)機(jī)器,但這有助于讓人們重新發(fā)現(xiàn)人的價(jià)值,比如通過(guò)讓機(jī)器人涉足諸如災(zāi)害救援現(xiàn)場(chǎng)、化工高危區(qū)域這類危險(xiǎn)場(chǎng)景,或是半導(dǎo)體芯片制造、精密儀器組裝等對(duì)精度要求極高的領(lǐng)域,以及從事物流倉(cāng)儲(chǔ)貨物分揀、流水線零件裝配等重復(fù)性勞動(dòng)崗位,將人類從繁重、高危、高精度的工作中解放出來(lái),從而改善人們的生活與工作環(huán)境?!?/p>

具身智能技術(shù),已獲長(zhǎng)足進(jìn)步

技術(shù)是產(chǎn)業(yè)發(fā)展的核心驅(qū)動(dòng)力,為產(chǎn)業(yè)創(chuàng)新升級(jí)提供支撐。在具身智能本體技術(shù)的關(guān)鍵領(lǐng)域和價(jià)值鏈條中,核心部件涉及減速器、伺服系統(tǒng)控制器、智能芯片、傳感器、電子皮膚等。其中,減速器、伺服系統(tǒng)和控制器在機(jī)器人整體成本中占比高達(dá)60%-70%。所以接下來(lái),我們來(lái)看一下具身智能在技術(shù)領(lǐng)域的現(xiàn)狀。

孫魯毅向與非網(wǎng)透露,在技術(shù)方面,具身智能目前在以下幾個(gè)方面已經(jīng)有長(zhǎng)足的進(jìn)步:

出色的運(yùn)動(dòng)控制表現(xiàn),比如宇樹(shù)機(jī)器人,可以做出更靈巧的類似人的動(dòng)作。

  • 多種感知技術(shù)的增強(qiáng)

攝像頭、雙目立體視覺(jué)、激光雷達(dá)、超聲波雷達(dá)、多維力傳感器、加速度傳感器等正在使得具身智能擁有能夠模擬甚至超過(guò)人的感知能力。

  • 預(yù)測(cè)規(guī)劃和思維能力

傳統(tǒng)的基于神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)和規(guī)劃算法,加上多模態(tài)大語(yǔ)言模型的加持,使得具身智能可以做出類似于人的判斷和思維,甚至分步深度思考問(wèn)題。

值得一提的是,具身智能作為人工智能與機(jī)器人技術(shù)的融合體,其核心在于通過(guò)智能體與物理環(huán)境的實(shí)時(shí)交互,實(shí)現(xiàn)自主感知、決策和行動(dòng)。在這一過(guò)程中,“眼睛”和“大腦”是具身智能的兩大核心要素:“眼睛”代表感知系統(tǒng),負(fù)責(zé)捕捉和理解環(huán)境信息;“大腦”代表決策與控制系統(tǒng),負(fù)責(zé)處理信息并生成行動(dòng)指令。在這其中,AI芯片扮演著重要的角色。

具身智能的眼睛:多模態(tài)感知融合是趨勢(shì)

對(duì)于具身智能機(jī)器人而言,精準(zhǔn)的環(huán)境感知是實(shí)現(xiàn)智能交互的基礎(chǔ)。當(dāng)前,在具身智能所需的深度感知中,雙目立體視覺(jué)、ToF、結(jié)構(gòu)光方案是三種主要的技術(shù)路線,每種方案都有其獨(dú)特的優(yōu)勢(shì)和適用場(chǎng)景。

  • 雙目立體視覺(jué)

雙目立體視覺(jué)類似人的雙眼,有利于在得到高分辨率彩色圖像信息的同時(shí)也得到深度信息,這種RGBD的感知,在機(jī)器人的圖像感知里是主流。但它需要較高的計(jì)算能力來(lái)處理圖像匹配和深度計(jì)算,同時(shí)兩臺(tái)相機(jī)需要精確校準(zhǔn),以確保深度計(jì)算的準(zhǔn)確性。

從市場(chǎng)應(yīng)用側(cè)來(lái)看,優(yōu)必選、傅利葉GR-1等機(jī)器人采用了雙目立體視覺(jué)方案。而從處理器平臺(tái)的供給側(cè)來(lái)看,安霸最新推出的AI芯片,包括CV7系列和N1系列具備較強(qiáng)的市場(chǎng)競(jìng)爭(zhēng)力。

對(duì)此,孫魯毅解釋道:“安霸在雙目立體視覺(jué)上有獨(dú)創(chuàng)的基于深度學(xué)習(xí)的算法,運(yùn)行在安霸的CV7系列和N1系列的AI引擎上,能夠做到在低反差場(chǎng)景,高光以及低光照?qǐng)鼍暗壤щy場(chǎng)景下的高精度深度感知,并且disparity密度和準(zhǔn)確度明顯高于市場(chǎng)競(jìng)品?!?/p>

  • ToF(飛行時(shí)間)

ToF是一種主動(dòng)傳感器,靠發(fā)射激光,通過(guò)測(cè)量接收的時(shí)間差或者相位差來(lái)計(jì)算深度。ToF傳感器的優(yōu)勢(shì)是在極高環(huán)境光亮度或者完全黑暗場(chǎng)景下,近距離下的深度感知。缺點(diǎn)是圖像分辨率一般比雙目立體視覺(jué)低,而且噪點(diǎn)比較大,高像素的ToF成本也相對(duì)高。

從市場(chǎng)應(yīng)用側(cè)來(lái)看,小米CyberOne采用了ToF+RGB方案,用于深度感知。而從處理器平臺(tái)的供給側(cè)來(lái)看,安霸的AI芯片也能覆蓋該需求。

  • 結(jié)構(gòu)光方案

結(jié)構(gòu)光方案和雙目立體視覺(jué)方案有相近之處,一般用于運(yùn)動(dòng)速度較低,分辨率比較高,但在強(qiáng)烈陽(yáng)光下效果不佳,比較適合用于室內(nèi)場(chǎng)景。

從市場(chǎng)應(yīng)用側(cè)來(lái)看,追覓機(jī)器人采用ToF+結(jié)構(gòu)光相機(jī),用于深度感知。不過(guò)在專業(yè)人士看來(lái),結(jié)構(gòu)光一般都可以被主動(dòng)雙目立體視覺(jué)替代。同樣,從處理器平臺(tái)的供給側(cè)來(lái)看,安霸AI芯片也能覆蓋該需求。

前面多次提到安霸的AI芯片,據(jù)悉除了以上三種傳感器外,安霸的N1系列芯片在深度感知技術(shù)上,還可以支持激光雷達(dá)、4D毫米波雷達(dá),并且對(duì)上述提到的深度感知技術(shù),都有硬件加速,因此CPU和內(nèi)存帶寬占用很小。

此外,針對(duì)這些感知得到的深度信息或者點(diǎn)云,N1系列芯片還支持將其輸入神經(jīng)網(wǎng)絡(luò),從而做到感知和目標(biāo)檢測(cè)、分類、預(yù)測(cè)、規(guī)劃決策的一體,也就是常說(shuō)的“端到端”的能力,這是普通的前端深度感知器,比如雙目或者ToF方案的DSP處理器不能比擬的。

具身智能的大腦:還沒(méi)到主拼算力的時(shí)候

如上所述,具身智能機(jī)器人需要實(shí)時(shí)處理大量來(lái)自傳感器的信息,并快速做出精準(zhǔn)決策,所以對(duì)算力平臺(tái)提出了較高要求。

為此,市場(chǎng)上的主要玩家,如英偉達(dá)、高通、安霸,以及國(guó)內(nèi)的地平線機(jī)器人等,都推出了相應(yīng)的高算力平臺(tái)。那么,這些國(guó)內(nèi)外的競(jìng)品與安霸的N1系列芯片相比到底有哪些不同呢?

對(duì)此,孫魯毅表示:“相比國(guó)際領(lǐng)先品牌的產(chǎn)品,N1以及后續(xù)的N1-655芯片具有功能和性能接近時(shí),具有功耗明顯更低的優(yōu)勢(shì),并且圖像處理和支持的傳感器更為豐富。相比中國(guó)本土的競(jìng)品,N1系列芯片功耗明顯更低,而且能夠更好地支持Transformer和多模態(tài)大語(yǔ)言模型。”

提到低功耗,孫魯毅補(bǔ)充道:“除了采用5nm工藝制程外,N1系列芯片的低功耗還來(lái)源于高效的芯片架構(gòu)設(shè)計(jì),所有的核心功能全由專用的硬件模塊完成,并不是全靠單一的AI引擎,而且在運(yùn)行相同的神經(jīng)網(wǎng)絡(luò),不論是CNN還是Transformer的時(shí)候,內(nèi)存帶寬消耗顯著地小于以上競(jìng)品(低一半以上)?!?/p>

在算法支持方面,N1芯片支持市面上流行的所有主流算法,CNN、Transformer類、BEV類。也支持各種大語(yǔ)言模型,比如常見(jiàn)的llama2、llama3、Qwen、Gemma、DeepSeek R1現(xiàn)在也已經(jīng)在N1上得到支持。

可能有人要問(wèn),要支持這么多算法和大語(yǔ)言模型,是否AI芯片就意味著超級(jí)算力?那么多少算力才算達(dá)到標(biāo)準(zhǔn)水平?

對(duì)此,孫魯毅認(rèn)為并非如此。他告訴與非網(wǎng):“如果按2025~2026年,我認(rèn)為市場(chǎng)期待在合適的成本上做到足夠的性能,并不是一定立刻去拼算力大小,這是因?yàn)榫呱碇悄苁且粋€(gè)完整的系統(tǒng),如果傳感器、軟件、基礎(chǔ)硬件接口、協(xié)議、算法等不夠完善的話,光是很大的算力,并不能發(fā)揮出效果?!?/p>

“如果參照行業(yè)頭部廠家的GPU芯片來(lái)講,市場(chǎng)期待等效于其 100T~300T 左右的AI芯片,支持多種傳感器、圖像處理、激光雷達(dá)、Transformer和多模態(tài)大語(yǔ)言模型,并且功耗盡可能要低,因?yàn)榫呱碇悄苌贤ǔ](méi)辦法用水冷,所以這個(gè)芯片的功耗最好是小于30W,采用風(fēng)冷?!?孫魯毅繼續(xù)講道。

所以從目前來(lái)看,安霸的N1-655是選擇之一,常溫下滿負(fù)荷運(yùn)行小于20W,等效算力大約250T 。

安霸在具身智能領(lǐng)域的下一步

2025年被視為人形機(jī)器人量產(chǎn)的關(guān)鍵節(jié)點(diǎn)。多家企業(yè)和研究機(jī)構(gòu)預(yù)計(jì),人形機(jī)器人將在這一年實(shí)現(xiàn)小規(guī)模量產(chǎn),并在2026年迎來(lái)商業(yè)化應(yīng)用的爆發(fā)。

面對(duì)該市場(chǎng)機(jī)遇,安霸方面表示將繼續(xù)推出更強(qiáng)大的芯片,加強(qiáng)在大語(yǔ)言模型方面的性能。同時(shí)抱著開(kāi)放的心態(tài),希望與業(yè)界的算法軟件設(shè)計(jì)公司、硬件設(shè)計(jì)公司、傳感器供應(yīng)廠合作,各顯其能,收獲共贏。

 

安霸

安霸

安霸的產(chǎn)品廣泛應(yīng)用于人眼和計(jì)算機(jī)視覺(jué)應(yīng)用,包括視頻監(jiān)控、高級(jí)駕駛輔助系統(tǒng)(ADAS)、電子后視鏡、行車(chē)記錄儀、駕駛員/艙內(nèi)監(jiān)控、無(wú)人駕駛和機(jī)器人應(yīng)用。通過(guò)提供高分辨率視頻壓縮、高級(jí)圖像處理和強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)處理,安霸的低功耗芯片能使智能攝像機(jī)從高分辨率視頻流中提取有價(jià)值的數(shù)據(jù)。

安霸的產(chǎn)品廣泛應(yīng)用于人眼和計(jì)算機(jī)視覺(jué)應(yīng)用,包括視頻監(jiān)控、高級(jí)駕駛輔助系統(tǒng)(ADAS)、電子后視鏡、行車(chē)記錄儀、駕駛員/艙內(nèi)監(jiān)控、無(wú)人駕駛和機(jī)器人應(yīng)用。通過(guò)提供高分辨率視頻壓縮、高級(jí)圖像處理和強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)處理,安霸的低功耗芯片能使智能攝像機(jī)從高分辨率視頻流中提取有價(jià)值的數(shù)據(jù)。收起

查看更多

相關(guān)推薦