自成立以來,跨維智能致力于將先進(jìn)的三維幾何深度學(xué)習(xí)技術(shù)賦能機(jī)械臂柔性操作等垂直領(lǐng)域,為客戶提供AI視覺算法、3D智能相機(jī)及高性價比的軟硬件一體化三維視覺解決方案,讓機(jī)器人以靈活主動的方式完成復(fù)雜環(huán)境下基于三維視覺的定位、識別、引導(dǎo)等任務(wù)。
近日,記者有幸邀請到跨維(深圳)智能數(shù)字科技有限公司創(chuàng)始人賈奎(博士)做客《機(jī)器視覺》雜志,深入了解到跨維智能3D視覺解決方案區(qū)別與傳統(tǒng)AI+3D視覺解決方案的優(yōu)勢所在。
M:MACHINE VISION
J:賈奎
M: 賈博士您好,AI技術(shù)可賦能的領(lǐng)域眾多,為什么您會帶領(lǐng)跨維選擇了“以AI技術(shù)助力3D視覺賦能機(jī)械臂完成柔性操作感知”這一細(xì)分領(lǐng)域?
J:AI領(lǐng)域涵蓋面非常廣闊,從計算機(jī)視覺、自然語言處理、語音識別等都屬于AI領(lǐng)域,我從2000年開始就深耕于計算機(jī)視覺這個細(xì)分領(lǐng)域,在多年的研究中,也積累了相當(dāng)?shù)难芯砍晒?。?D視覺因為有著模仿人眼、在物理空間形成立體視覺的優(yōu)勢,成為了計算機(jī)視覺中最底層的訴求。從2015年開始,我主要專注于3D視覺領(lǐng)域,將AI技術(shù)結(jié)合到3D視覺中的應(yīng)用當(dāng)中。這項研究放眼當(dāng)時的整個國際學(xué)術(shù)圈,都是較為領(lǐng)先的存在。
在AI技術(shù)助力3D視覺的眾多分支應(yīng)用中,經(jīng)過綜合考量,賦能機(jī)械臂完成相關(guān)柔性操作感知是可落地性與商業(yè)變現(xiàn)周期較短的。而且工業(yè)智能制造的大多場景都是半開放的環(huán)境,通過AI技術(shù)助力3D視覺,可以從根本上改變以往機(jī)械臂柔性操作在傳統(tǒng)方案中的固有缺陷。從長遠(yuǎn)出發(fā),這樣的產(chǎn)品形式能夠改變當(dāng)前自動化產(chǎn)線的設(shè)計思路,以搭積木方式實現(xiàn)整個產(chǎn)業(yè)線的自動化,也能夠把自動化推向智能制造的新階段。
M: 在跨維智能成立的有限時間里,卻迸發(fā)出了無限的潛力,可以分享一下貴司核心技術(shù)嗎?
J:從底層出發(fā),跨維智能核心技術(shù)是Sim2Real AI云中臺DexVerse。行業(yè)中絕大部分的AI技術(shù),還是傳統(tǒng)意義上的圖像的識別、理解、語義分割等圖像層面上的。而3D技術(shù)本身解決的是三維物理空間中的問題,對物體的空間位置進(jìn)行感知定位,并完成相關(guān)操作。而跨維的云中臺DexVerse是一款新型的AI平臺,它可以通過打通物理仿真、數(shù)據(jù)合成、AI 設(shè)計與訓(xùn)練、模型軟硬件部署的閉環(huán),建立 Sim2Real 虛擬空間與現(xiàn)實空間的映射關(guān)聯(lián),實現(xiàn)對機(jī)械臂柔性操作、機(jī)器人感知與控制等任務(wù)的AI賦能。
例如,機(jī)械臂如何將桌面上的水杯拿起這樣的操作,在人類的感知中似乎是非常輕而易舉的,但在機(jī)器的眼中,這是一個相當(dāng)復(fù)雜的過程。首先需要解讀的是杯子放在桌面上,距離機(jī)械臂的距離是多少?高度是多少?其次世界上杯子千變?nèi)f化,杯子形態(tài)變換后,機(jī)器是否還能認(rèn)出這是一個杯子?機(jī)器如何去應(yīng)對形態(tài)、顏色、大小均各異的“杯子”?
機(jī)械臂在跨維云中臺DexVerse的助力下,通過物理仿真與數(shù)據(jù)合成,可以訓(xùn)練出機(jī)械臂拿起水杯所需要的各種數(shù)據(jù),去支持機(jī)械臂實現(xiàn)對目標(biāo)物體后續(xù)的抓取、定位、上下料、拆垛等操作。通過仿真空間中模擬物體之間的相互作用、運動和變形,以預(yù)測真實世界中的物理行為,并合成虛擬數(shù)據(jù)用于深度學(xué)習(xí)模型訓(xùn)練。
M:為何Sim2Real AI是實現(xiàn)3D視覺大模型和通往垂直場景AGI高效且低成本的重要技術(shù)?
J:跨維智能Sim2Real AI云中臺DexVerse所使用的AI技術(shù),相比起基礎(chǔ)的圖像理解,是跨維度的難度躍升。首先三維數(shù)據(jù)的獲取本身相比二維數(shù)據(jù)就難得多,工業(yè)場景中的三維數(shù)據(jù)由于開放多變的場景及隱私保護(hù)導(dǎo)致海量真實數(shù)據(jù)采集難上加難,而且針對各種corner cases的真實數(shù)據(jù)難以有效獲取。其次是現(xiàn)階段的AI技術(shù)從數(shù)據(jù)獲取到AI模型訓(xùn)練,再到垂直的應(yīng)用場景,這之間由于技術(shù)與應(yīng)用的分離,導(dǎo)致模型的應(yīng)用效果不太理想。在工業(yè)領(lǐng)域眾多場景里,就會形成數(shù)據(jù)孤島,從數(shù)據(jù)與知識上難以互通利用。最后是現(xiàn)有AI技術(shù)的標(biāo)注難題,如何實現(xiàn)高精度3D等高維標(biāo)注仍然屬于痛點難題。
基于現(xiàn)有AI所面臨的難題成就了跨維智能的核心產(chǎn)品Sim2Real AI云中臺DexVerse,通過物理仿真合成數(shù)據(jù),可以實現(xiàn)加速AI在垂直場景中的落地應(yīng)用。
DexVerse對于跨維自身產(chǎn)品的形成也是決定性的,可以以更快速、更低成本、更產(chǎn)品化的方式解決3D視覺助力機(jī)械臂的非標(biāo)定制問題。
M:可以簡單介紹一下跨維智能的系列產(chǎn)品嗎?
J:基于自研的Sim2Real AI云中臺DexVerse,跨維智能構(gòu)建了完善的智能制造軟硬件產(chǎn)品生態(tài),也就是跨維智能的“1+3”產(chǎn)品體系?!?”是自研的Sim2Real AI云中臺DexVerse,“3”即DexVision3D工業(yè)視覺軟件、DexSense3D工業(yè)智能相機(jī)、DexOne智能視覺一體化設(shè)備。
基于DexVerse所構(gòu)建的DexVision3D工業(yè)視覺軟件:PickWiz 3D視覺引導(dǎo)軟件,可以在仿真空間模擬多樣化場景,并生成大量的合成數(shù)據(jù)。這樣的工業(yè)視覺軟件可應(yīng)用的場景更多樣化,不僅減少了模型重復(fù)搭建的成本,而且最終識別效果優(yōu)于真實數(shù)據(jù),并且模擬的多樣化場景也使視覺系統(tǒng)的穩(wěn)定性和效率大幅提升。
DexSense 3D工業(yè)智能相機(jī):XEMA北極鷗系列開源相機(jī),它可以支持一鍵連接跨維 PickWiz 3D視覺引導(dǎo)軟件的,搭載上DexVerse云平臺,可實時收集真實數(shù)據(jù),不斷在云端優(yōu)化視覺算法。如果DexVerse云平臺是大腦,那么DexSense 3D工業(yè)智能相機(jī)就是眼睛,好的成像能力可以減輕大腦的負(fù)載壓力,這也是跨維智能自研相機(jī)的初衷。
最后,DexOne 智能視覺一體化設(shè)備,是跨維智能布局引領(lǐng)智能智造領(lǐng)域范式改變的重要一步。該設(shè)備也是基于自研的 DexVerse 平臺,通過深度域適應(yīng)優(yōu)化算法實現(xiàn)整個流程的自動化,針對工業(yè)場景中的痛點進(jìn)行模型設(shè)計,滿足工業(yè)現(xiàn)場落地需求。以3D視覺引導(dǎo)機(jī)械臂對物料進(jìn)行上下料抓取,搬運,替代傳統(tǒng)人工作業(yè)抓取搬運,有效提高產(chǎn)線的生產(chǎn)效率和生產(chǎn)質(zhì)量,產(chǎn)能提高20%以上;同時,該項目機(jī)器人為模塊化架構(gòu),針對未來不同的產(chǎn)品工藝,具有更高兼容性,可觸及更多更廣的生產(chǎn)范圍,以滿足客戶日益增長的柔性化需求。
M: 作為公司自研的Sim2Real AI云中臺DexVerse,您可以談?wù)勎磥砉净贒exVerse的產(chǎn)品研發(fā)規(guī)劃嗎?
J:基于我們自研的Sim2Real AI云中臺DexVerse所能夠支撐的,其實不單是機(jī)械臂、智能制造相關(guān)的應(yīng)用,更是服務(wù)泛機(jī)器人底層AI能力形成的加速器。無論是幫助具身智能去感知3D定位,還是去幫助無人車做導(dǎo)航和物體識別,它都是一款非常不錯的AI能力平臺,3D合成數(shù)據(jù)還有機(jī)會賦能3D AIGC、AI生物制藥、AI新材料等更廣泛的領(lǐng)域。
M:自公司成立以來,貴司一直致力于推動3D視覺引導(dǎo)機(jī)械臂柔性操作領(lǐng)域的普及化應(yīng)用,請問在這個方向上取得了哪些成果?
J:“3D視覺+智能相機(jī)+機(jī)械臂”是未來自動化新型應(yīng)用重要的載體。目前,在國內(nèi)自動化產(chǎn)線智能制造的升級過程中,這樣的新型應(yīng)用載體隨處可見?;谑袌鲂枨?,我們在產(chǎn)品研發(fā)和應(yīng)用探索上也一直走在行業(yè)的前沿,迄今為止,我們已經(jīng)取得了很大的進(jìn)展,比如在3D視覺解決方案產(chǎn)品迭代方面,我們推出了四大解決方案,包含:3D視覺引導(dǎo)淺框無序抓取、3D視覺引導(dǎo)單目標(biāo)精定位、3D視覺引導(dǎo)工件上下料、3D視覺引導(dǎo)拆垛解決方案等; 在應(yīng)用場景探索落地方面,我們也跟諸如汽車零部件、工程機(jī)械、家電、光伏新能源和物流等行業(yè)內(nèi)的眾多頭部集成商客戶成功落地了多種應(yīng)用場景,實現(xiàn)了行業(yè)應(yīng)用從0到1的突破。
M:在未來幾年內(nèi),您對那些應(yīng)用行業(yè)比較看好?
J:機(jī)器視覺對于提高工業(yè)機(jī)器人的靈活性和可操作性具有重要意義,在大批量工業(yè)生產(chǎn)過程中,3D視覺助力機(jī)器人實現(xiàn)更多高精度動作,拓寬其應(yīng)用場景,也大大提高了生產(chǎn)效率和柔性化程度。目前來說,物流、金屬加工和汽車零部件等行業(yè),已經(jīng)成為開始規(guī)?;瘧?yīng)用3D機(jī)器視覺的幾個主要應(yīng)用市場,另外,家電、醫(yī)療、光伏新能源等多個更大體量的市場也在啟動機(jī)器視覺對于自動化產(chǎn)線的升級改造。未來,更大的市場機(jī)會也將來自于上述工業(yè)市場的商業(yè)類應(yīng)用。