論文 StreamMOS: Streaming Moving Object Segmentation with Multi-View Perception and Dual-Span Memory 提出了一種名為StreamMOS的流媒體網(wǎng)絡(luò),用于基于LiDAR的移動(dòng)物體分割(MOS)。該方法通過多視角感知和雙跨度記憶機(jī)制來解決現(xiàn)有方法在不同幀中對同一物體分割結(jié)果不一致的問題。
引言
背景:在城市道路上,動(dòng)態(tài)物體(如車輛和行人)會(huì)增加自動(dòng)駕駛車輛的碰撞風(fēng)險(xiǎn),并對同時(shí)定位與建圖(SLAM)以及障礙物規(guī)避和路徑規(guī)劃帶來挑戰(zhàn)。
問題:由于LiDAR點(diǎn)云的無序性和稀疏性,移動(dòng)物體分割(MOS)任務(wù)面臨挑戰(zhàn),尤其是在遠(yuǎn)距離稀疏點(diǎn)云的情況下。
現(xiàn)有方法:大多數(shù)現(xiàn)有方法通過單次推理傳遞時(shí)空線索,導(dǎo)致不同幀中對同一物體的分割結(jié)果不一致。
解決方案:提出了一種流媒體結(jié)構(gòu)StreamMOS,利用短期記憶和長期記憶在多次推理中構(gòu)建特征和預(yù)測的關(guān)聯(lián)。
移動(dòng)物體分割方法的流程對比。我們在(a)和(b)中比較了提出的StreamMOS與之前方法的結(jié)構(gòu)。同時(shí),我們的方法在(c)中獲得了更好的空間完整性和時(shí)間連續(xù)性的分割結(jié)果。
相關(guān)工作
點(diǎn)云處理方法:Mersch等人采用稀疏4D卷積處理LiDAR掃描,并使用二元貝葉斯濾波器融合多次預(yù)測。Kreutz等人提出無監(jiān)督方法解決靜態(tài)LiDAR的MOS任務(wù)。Wang等人引入InsMOS,將檢測和分割統(tǒng)一到一個(gè)網(wǎng)絡(luò)中,以提高分割完整性。
投影方法:Chen等人將LiDAR掃描映射到球面坐標(biāo)生成殘差圖像,提取動(dòng)態(tài)信息。Sun等人設(shè)計(jì)雙分支探索時(shí)空信息,并通過點(diǎn)精細(xì)化模塊緩解邊界模糊問題。Kim等人通過使用額外的語義特征提高性能。Mohapatra等人和Zhou等人利用鳥瞰圖(BEV)投影獲得更直觀的運(yùn)動(dòng)表示。
方法
框架概述
StreamMOS的整體架構(gòu)。(a) 特征編碼器采用逐點(diǎn)編碼器來提取點(diǎn)特征并將其投影到鳥瞰圖(BEV)。然后,使用級聯(lián)結(jié)構(gòu)和不對稱卷積的多視角編碼器從不同視角提取運(yùn)動(dòng)特征。(b) 時(shí)空融合利用注意力模塊將記憶特征傳播到當(dāng)前推理中。(c) 無參數(shù)上采樣的分割解碼器采用多尺度特征來預(yù)測類別標(biāo)簽。(d) 投票機(jī)制利用記憶預(yù)測來優(yōu)化每個(gè)3D體素和實(shí)例的運(yùn)動(dòng)狀態(tài)。
目標(biāo):基于多幀點(diǎn)云確定當(dāng)前掃描中每個(gè)點(diǎn)的運(yùn)動(dòng)狀態(tài)。
網(wǎng)絡(luò)結(jié)構(gòu):包括多視角編碼器、短期記憶、長時(shí)間記憶和投票機(jī)制。
多視角編碼器:采用級聯(lián)結(jié)構(gòu)從RV和BEV中提取密集外觀和直觀運(yùn)動(dòng)特征。
不對稱卷積:在BEV編碼中引入不對稱卷積,更好地捕捉垂直和水平運(yùn)動(dòng)。
注意力機(jī)制:實(shí)現(xiàn)時(shí)空融合,對齊不同時(shí)間的特征。
投票機(jī)制:在體素和實(shí)例級別統(tǒng)計(jì)分析長期運(yùn)動(dòng)狀態(tài),優(yōu)化預(yù)測標(biāo)簽。
多視角編碼器
設(shè)計(jì):不同于以往只使用單一視角的方法,提出了多視角編碼器,從RV和BEV中提取物體的運(yùn)動(dòng)特征。
級聯(lián)結(jié)構(gòu):逐層獲取密集外觀和直觀運(yùn)動(dòng)特征,確保特征的一致性。
不對稱卷積:分離水平和垂直運(yùn)動(dòng),提升特征提取的精度。
不對稱卷積塊和多視角特征的示意圖。
短期時(shí)空融合
目的:將上一次推理的記憶特征傳遞到當(dāng)前推理中,利用歷史空間狀態(tài)指導(dǎo)當(dāng)前物體運(yùn)動(dòng)的推斷。
實(shí)現(xiàn):構(gòu)建短期記憶庫,存儲(chǔ)歷史特征,并通過注意力機(jī)制實(shí)現(xiàn)時(shí)空融合。
投票機(jī)制
目的:解決神經(jīng)網(wǎng)絡(luò)輸出在不同幀中的不一致性問題。
方法:在體素和實(shí)例級別進(jìn)行統(tǒng)計(jì)分析,選擇最可能的狀態(tài)更新原始點(diǎn)預(yù)測,優(yōu)化分割結(jié)果。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集:在SemanticKITTI-MOS和Sipailou-Campus數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證方法性能。
SemanticKITTI-MOS:包含22個(gè)序列,分為訓(xùn)練、驗(yàn)證和測試集。
Sipailou-Campus:基于固態(tài)LiDAR構(gòu)建,分為訓(xùn)練、驗(yàn)證和測試集。
評價(jià)指標(biāo):采用Jaccard指數(shù)或交并比(IoU)度量動(dòng)態(tài)物體的MOS性能。
實(shí)現(xiàn)細(xì)節(jié)
數(shù)據(jù)處理:采用隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)和輕微平移等數(shù)據(jù)增強(qiáng)技術(shù),提升模型的泛化能力。
訓(xùn)練策略:分兩階段訓(xùn)練,第一階段訓(xùn)練48個(gè)epoch,使用SGD優(yōu)化器,初始學(xué)習(xí)率為0.02,每10個(gè)epoch衰減0.1。
實(shí)驗(yàn)結(jié)果
性能對比:在SemanticKITTI(77.8%)和Sipailou Campus(92.5%)數(shù)據(jù)集上,StreamMOS表現(xiàn)優(yōu)異,且具有實(shí)時(shí)運(yùn)行能力。
速度對比:盡管使用了注意力機(jī)制和投票機(jī)制,StreamMOS仍保持了競爭性的運(yùn)行時(shí)間。
SemanticKITTI驗(yàn)證集上的MOS結(jié)果可視化。錯(cuò)誤預(yù)測用藍(lán)色圓圈標(biāo)出。建議放大查看彩色圖。
定性分析
可視化結(jié)果:在各種場景中對比了不同方法的分割結(jié)果,StreamMOS在處理遠(yuǎn)距離物體和邊界模糊問題上表現(xiàn)更好。
消融研究
模塊重要性:通過移除關(guān)鍵模塊(如時(shí)空融合、多視角編碼器、體素投票和實(shí)例投票)進(jìn)行消融實(shí)驗(yàn),驗(yàn)證各模塊的重要性。
多視角編碼器:比較了不同的多視角編碼策略,證明級聯(lián)結(jié)構(gòu)和不對稱卷積的有效性。
注意力機(jī)制:比較了不同的注意力機(jī)制,驗(yàn)證了可變形注意力的優(yōu)勢。
時(shí)間窗口長度:實(shí)驗(yàn)表明,時(shí)間窗口長度為8時(shí)性能最佳。
其他超參數(shù)設(shè)置:探討了幀數(shù)和BEV分辨率對性能的影響,確定了最佳設(shè)置。
結(jié)論
總結(jié):StreamMOS通過記憶機(jī)制在多次推理中傳遞先驗(yàn)信息,捕捉多視角的完整外觀和運(yùn)動(dòng)特征,并通過投票機(jī)制優(yōu)化單次推理中的錯(cuò)誤預(yù)測,實(shí)驗(yàn)結(jié)果證明了該方法在多方面的競爭力。
相關(guān)信息
代碼:https://github.com/neu-real/streammos
論文:https://arxiv.org/abs/2407.17905v1