• 正文
  • 推薦器件
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

RefMask3D: 基于語言引導(dǎo)的3D指代分割Transformer

2024/08/06
2086
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

論文 RefMask3D: Language-Guided Transformer for 3D Referring Segmentation 提出了一種新的方法來解決3D點云中的目標識別和分割問題,特別是基于語言描述的目標識別。

(a) 兩階段框架在后期匹配階段融合語言特征,表現(xiàn)出有限的交互和視覺與語言特征之間較弱的對齊。相比之下,(b) 我們的RefMask3D在早期特征編碼階段和解碼階段都進行了全面的視覺-語言融合。結(jié)合對比學習,我們的模型比兩階段方法學習到更結(jié)構(gòu)化的視覺-語言聯(lián)合特征空間。

主要貢獻

所提出的RefMask3D框架概述。它通過幾何增強的組詞注意力機制從點編碼器中提取富含文本信息的點特征。隨后,語言原語構(gòu)建模塊生成用于體現(xiàn)特定語義屬性的原語。這些原語隨后被輸入到Transformer解碼器中,以聚焦于多樣的語義。對象聚類模塊用于分析語言原語之間的相互關(guān)系,統(tǒng)一它們的見解并提取共同特征,從而提高目標識別的精度。

幾何增強的組詞注意力機制(Geometry-Enhanced Group-Word Attention, GEGWA)

目的:解決點云數(shù)據(jù)稀疏和不規(guī)則性帶來的噪聲問題。

方法:在點編碼器的每個階段進行語言和局部組(子云)之間的跨模態(tài)注意力機制。

優(yōu)勢:利用幾何相鄰點的內(nèi)在關(guān)系,減少了直接點到詞的關(guān)聯(lián)帶來的噪聲,提高了模型對語言和幾何數(shù)據(jù)的理解能力。

效果:顯著提高了模型在跨模態(tài)交互中的表現(xiàn)。

語言原語構(gòu)建策略(Linguistic Primitives Construction, LPC)

目的:解決現(xiàn)有方法在訓練和優(yōu)化過程中面臨的挑戰(zhàn),如噪聲和不足的訓練。

方法:初始化一組多樣的原語,每個原語代表不同的語義屬性(如形狀、顏色、大小、關(guān)系、位置等)。

優(yōu)勢:通過與特定語言信息的交互,這些原語能夠獲取相應(yīng)的屬性,從而增強模型在點云中準確定位和識別目標的能力。

效果:提高了模型在多樣語義信息下的目標識別能力。

對象聚類模塊(Object Cluster Module)

目的:實現(xiàn)對語言和視覺信息的整體理解,從而準確識別唯一目標對象。

方法:分析語言原語之間的關(guān)系,提取共同特征,形成最終的對象嵌入。

優(yōu)勢:幫助模型加深對語言和視覺信息的整體理解。

效果:顯著提高了模型在復(fù)雜場景下的目標識別能力。

方法概述

架構(gòu)概覽:提出了一個端到端的3D指代分割模型RefMask3D,輸入為點云場景和文本描述,輸出為目標對象的點狀掩碼。與傳統(tǒng)方法不同,RefMask3D在點編碼器中集成了多模態(tài)融合,利用幾何增強的組詞注意力機制來處理局部組(子云),減少了直接點到詞關(guān)聯(lián)帶來的噪聲。

視覺和語言特征提取:使用文本編碼器將文本描述嵌入到語言特征中,并在編碼器中建立深度交互。

對象聚類模塊:通過分析語言原語之間的關(guān)系,提取共同特征,形成最終的對象嵌入,幫助模型加深對語言和視覺信息的整體理解。

實驗結(jié)果

組件分析:詳細實驗表明,幾何增強的組詞注意力機制(GEGWA)和語言原語構(gòu)建策略(LPC)顯著提高了模型的性能。通過對比不同的查詢輸入方法,LPC在準確定位和識別目標對象方面表現(xiàn)優(yōu)異。

性能對比:RefMask3D在3D指代分割和視覺定位任務(wù)中取得了新的最先進性能,顯著超越了之前的方法。

可視化結(jié)果:可視化結(jié)果展示了不同原語代表的語義屬性(如顏色、關(guān)系、名稱等),以及RefMask3D在復(fù)雜語言描述下準確分割目標對象的能力。

原語熱圖可視化。不同的原語代表不同的語義屬性。藍色表示最低響應(yīng)水平,而紅色表示最高響應(yīng)水平。

結(jié)論

    論文提出的方法通過幾何增強的組詞注意力機制、語言原語構(gòu)建策略和對象聚類模塊,顯著提高了3D點云中基于語言描述的目標識別和分割性能。通過創(chuàng)新的跨模態(tài)融合和特征提取方法,為3D點云中的目標識別和分割提供了新的思路和技術(shù)手段。

相關(guān)信息

代碼:https://github.com/heshuting555/refmask3d

論文:https://arxiv.org/abs/2407.18244v1

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
STM32F429NIH6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FMC with SDRAM, TFT

ECAD模型

下載ECAD模型
$15.65 查看
CP2102N-A02-GQFN24R 1 Silicon Laboratories Inc USB Bus Controller, CMOS, QFN-24

ECAD模型

下載ECAD模型
$2.59 查看
CP2102N-A02-GQFN28R 1 Silicon Laboratories Inc USB Bus Controller, CMOS, QFN-28

ECAD模型

下載ECAD模型
$2.5 查看

相關(guān)推薦