• 正文
    • 研究背景
    • 問題陳述
    • 方法介紹
    • 實(shí)驗(yàn)結(jié)果
    • 結(jié)論
  • 推薦器件
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

SA-DVAE:通過解耦變分自編碼器改進(jìn)零樣本骨架動(dòng)作識(shí)別

2024/07/31
3230
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

論文 SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders 提出了一種名為SA-DVAE(Semantic Alignment via Disentangled Variational Autoencoders)的新方法,用于改進(jìn)零樣本骨架動(dòng)作識(shí)別。

研究背景

動(dòng)作識(shí)別是一個(gè)長(zhǎng)期活躍的研究領(lǐng)域,具有廣泛的應(yīng)用,如監(jiān)控、監(jiān)測(cè)和人機(jī)交互。根據(jù)輸入數(shù)據(jù)類型,動(dòng)作識(shí)別可以分為基于圖像、視頻、深度和骨架的識(shí)別。本文聚焦于骨架動(dòng)作識(shí)別,這種方法由于姿態(tài)估計(jì)和傳感器技術(shù)的進(jìn)步,成為視頻動(dòng)作識(shí)別的一個(gè)可行替代方案。骨架動(dòng)作識(shí)別對(duì)外觀和背景變化具有魯棒性,但現(xiàn)有方法主要依賴于監(jiān)督學(xué)習(xí),需要大量標(biāo)注數(shù)據(jù),這既昂貴又耗時(shí)。

與現(xiàn)有方法的比較。我們的方法是第一個(gè)將特征解耦應(yīng)用于基于骨架的零樣本動(dòng)作識(shí)別問題的方法。所有現(xiàn)有方法都直接將骨架特征與文本特征對(duì)齊,而我們的方法只將語(yǔ)義相關(guān)的部分骨架特征與文本特征對(duì)齊。

問題陳述

在一些情況下,訓(xùn)練數(shù)據(jù)難以獲取或受到隱私問題的限制,零樣本學(xué)習(xí)(ZSL)提供了一種替代方案,通過利用未見類的名稱、屬性或描述來(lái)識(shí)別未見動(dòng)作。現(xiàn)有的骨架動(dòng)作識(shí)別方法假設(shè)骨架序列捕捉良好且高度一致,主要關(guān)注如何語(yǔ)義優(yōu)化文本表示。然而,通過對(duì)NTU RGB+D和PKU-MMD兩個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集進(jìn)行仔細(xì)檢查,發(fā)現(xiàn)這種假設(shè)是有問題的。相機(jī)位置和演員動(dòng)作差異會(huì)帶來(lái)顯著噪聲。

方法介紹

受現(xiàn)有ZSL方法的啟發(fā),SA-DVAE通過將骨架潛在特征空間解耦為語(yǔ)義相關(guān)和語(yǔ)義無(wú)關(guān)的兩個(gè)部分來(lái)解決泛化問題。具體來(lái)說(shuō),SA-DVAE包括以下幾個(gè)關(guān)鍵組件:

SA-DVAE的系統(tǒng)架構(gòu)。首先,使用特征提取器來(lái)提取特征。隨后,跨模態(tài)對(duì)齊模塊對(duì)齊兩種模態(tài)并生成語(yǔ)義相關(guān)的未見骨架特征(zxr)。這些生成的特征用于訓(xùn)練分類器。

跨模態(tài)對(duì)齊模塊。該模塊有兩個(gè)主要任務(wù):通過自重建構(gòu)建潛在空間和通過交叉重建進(jìn)行跨模態(tài)對(duì)齊。骨架特征被解耦為語(yǔ)義相關(guān)(zxr)和語(yǔ)義無(wú)關(guān)(zxv)的因素。

特征解耦:將骨架特征分解為語(yǔ)義相關(guān)和語(yǔ)義無(wú)關(guān)的部分,僅對(duì)語(yǔ)義相關(guān)的部分進(jìn)行對(duì)齊。

對(duì)抗性總相關(guān)懲罰:通過一個(gè)對(duì)抗性鑒別器來(lái)鼓勵(lì)兩個(gè)解耦特征之間的獨(dú)立性,減少共享信息。

實(shí)驗(yàn)結(jié)果

在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)表明,SA-DVAE在ZSL和廣義零樣本學(xué)習(xí)(GZSL)基準(zhǔn)上達(dá)到了最先進(jìn)的性能。具體結(jié)果如下:

    在NTU RGB+D 60數(shù)據(jù)集上,SA-DVAE在GZSL協(xié)議下的準(zhǔn)確率提高了7.25%和6.23%,在ZSL協(xié)議下提高了4.39%和1.2%。通過隨機(jī)選擇未見類進(jìn)行多次實(shí)驗(yàn),SA-DVAE在不同特征提取器的設(shè)置下也表現(xiàn)出色。

結(jié)論

SA-DVAE通過使用特征解耦方法將骨架數(shù)據(jù)分為語(yǔ)義相關(guān)和無(wú)關(guān)的兩個(gè)獨(dú)立表示,并通過對(duì)抗性鑒別器來(lái)增強(qiáng)特征解耦,顯著提高了零樣本和廣義零樣本學(xué)習(xí)的性能。

相關(guān)信息

代碼:https://github.com/pha123661/SA-DVAE

論文:https://arxiv.org/abs/2407.13460v1

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
LM35DM 1 Rochester Electronics LLC ANALOG TEMP SENSOR-VOLTAGE, 0.60Cel, RECTANGULAR, SURFACE MOUNT, PLASTIC, SO-8
$3.34 查看
TC77-3.3MCTTR 1 Microchip Technology Inc SPECIALTY ANALOG CIRCUIT, PDSO5, PLASTIC, SOT-23, 5 PIN

ECAD模型

下載ECAD模型
$1.32 查看
DRV5032FBDBZT 1 Texas Instruments Low power (5 Hz, <1&#181;A), low voltage (up to 5.5V) switch 3-SOT-23 -40 to 85

ECAD模型

下載ECAD模型
$1.07 查看

相關(guān)推薦