論文 SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders 提出了一種名為SA-DVAE(Semantic Alignment via Disentangled Variational Autoencoders)的新方法,用于改進(jìn)零樣本骨架動(dòng)作識(shí)別。
研究背景
動(dòng)作識(shí)別是一個(gè)長(zhǎng)期活躍的研究領(lǐng)域,具有廣泛的應(yīng)用,如監(jiān)控、監(jiān)測(cè)和人機(jī)交互。根據(jù)輸入數(shù)據(jù)類型,動(dòng)作識(shí)別可以分為基于圖像、視頻、深度和骨架的識(shí)別。本文聚焦于骨架動(dòng)作識(shí)別,這種方法由于姿態(tài)估計(jì)和傳感器技術(shù)的進(jìn)步,成為視頻動(dòng)作識(shí)別的一個(gè)可行替代方案。骨架動(dòng)作識(shí)別對(duì)外觀和背景變化具有魯棒性,但現(xiàn)有方法主要依賴于監(jiān)督學(xué)習(xí),需要大量標(biāo)注數(shù)據(jù),這既昂貴又耗時(shí)。
與現(xiàn)有方法的比較。我們的方法是第一個(gè)將特征解耦應(yīng)用于基于骨架的零樣本動(dòng)作識(shí)別問題的方法。所有現(xiàn)有方法都直接將骨架特征與文本特征對(duì)齊,而我們的方法只將語(yǔ)義相關(guān)的部分骨架特征與文本特征對(duì)齊。
問題陳述
在一些情況下,訓(xùn)練數(shù)據(jù)難以獲取或受到隱私問題的限制,零樣本學(xué)習(xí)(ZSL)提供了一種替代方案,通過利用未見類的名稱、屬性或描述來(lái)識(shí)別未見動(dòng)作。現(xiàn)有的骨架動(dòng)作識(shí)別方法假設(shè)骨架序列捕捉良好且高度一致,主要關(guān)注如何語(yǔ)義優(yōu)化文本表示。然而,通過對(duì)NTU RGB+D和PKU-MMD兩個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集進(jìn)行仔細(xì)檢查,發(fā)現(xiàn)這種假設(shè)是有問題的。相機(jī)位置和演員動(dòng)作差異會(huì)帶來(lái)顯著噪聲。
方法介紹
受現(xiàn)有ZSL方法的啟發(fā),SA-DVAE通過將骨架潛在特征空間解耦為語(yǔ)義相關(guān)和語(yǔ)義無(wú)關(guān)的兩個(gè)部分來(lái)解決泛化問題。具體來(lái)說(shuō),SA-DVAE包括以下幾個(gè)關(guān)鍵組件:
SA-DVAE的系統(tǒng)架構(gòu)。首先,使用特征提取器來(lái)提取特征。隨后,跨模態(tài)對(duì)齊模塊對(duì)齊兩種模態(tài)并生成語(yǔ)義相關(guān)的未見骨架特征(zxr)。這些生成的特征用于訓(xùn)練分類器。
跨模態(tài)對(duì)齊模塊。該模塊有兩個(gè)主要任務(wù):通過自重建構(gòu)建潛在空間和通過交叉重建進(jìn)行跨模態(tài)對(duì)齊。骨架特征被解耦為語(yǔ)義相關(guān)(zxr)和語(yǔ)義無(wú)關(guān)(zxv)的因素。
特征解耦:將骨架特征分解為語(yǔ)義相關(guān)和語(yǔ)義無(wú)關(guān)的部分,僅對(duì)語(yǔ)義相關(guān)的部分進(jìn)行對(duì)齊。
對(duì)抗性總相關(guān)懲罰:通過一個(gè)對(duì)抗性鑒別器來(lái)鼓勵(lì)兩個(gè)解耦特征之間的獨(dú)立性,減少共享信息。
實(shí)驗(yàn)結(jié)果
在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)表明,SA-DVAE在ZSL和廣義零樣本學(xué)習(xí)(GZSL)基準(zhǔn)上達(dá)到了最先進(jìn)的性能。具體結(jié)果如下:
- 在NTU RGB+D 60數(shù)據(jù)集上,SA-DVAE在GZSL協(xié)議下的準(zhǔn)確率提高了7.25%和6.23%,在ZSL協(xié)議下提高了4.39%和1.2%。通過隨機(jī)選擇未見類進(jìn)行多次實(shí)驗(yàn),SA-DVAE在不同特征提取器的設(shè)置下也表現(xiàn)出色。
結(jié)論
SA-DVAE通過使用特征解耦方法將骨架數(shù)據(jù)分為語(yǔ)義相關(guān)和無(wú)關(guān)的兩個(gè)獨(dú)立表示,并通過對(duì)抗性鑒別器來(lái)增強(qiáng)特征解耦,顯著提高了零樣本和廣義零樣本學(xué)習(xí)的性能。
相關(guān)信息
代碼:https://github.com/pha123661/SA-DVAE
論文:https://arxiv.org/abs/2407.13460v1