arXiv 2021
Jing Zhang, Yunqiu Lv, Mochu Xiang, Aixuan Li, Yuchao Dai, Yiran Zhong
論文位址
一、簡介
探索深度資訊對僞裝物體檢測的貢獻,提出了一個深度資訊引導的僞裝對象檢測網絡。
我們引入深度品質評估子產品來評估僞裝對象檢測的深度品質,并隻使用高品質的深度更新網絡的模态互動部分。
在測試過程中,我們的深度品質評估子產品可以自動識别深度品質。
二、方法
2.1 簡介
我們首先使用現有的單目深度估計方法生成深度圖,然後引入深度品質評估子產品,根據RGB COD 和RGB-D COD模型的預測結果有效地識别高品質的深度圖,并相應地更新網絡參數。
該架構一共有三個部分:1)RGB COD model;2)RGB-D COD model;3)深度品質評估子產品。
2.2 初始深度生成
使用現有最先進的單目深度估計方法(MiDaS,Monodepth2,FrozenPeople)為我們的訓練和測試資料集生成深度圖。其中MiDaS在不同場景中提供了可靠的結果,Monodepth2主要針對自動駕駛,FrozenPeople主要針對人類。如圖Figure3所示,MiDaS的效果更好,是以在實驗中采用了MiDaS來生成深度圖。
2.3 RGB COD model
Encoder使用ResNet-50,生成四個featuers。Prediction旨在将較高較低的特征與較大的接受域相結合,以進行僞裝對象檢測。
ASPP是多孔空間金字塔池化子產品,RCA是殘差通道注意子產品,Triple Conv是3個3×3的卷積。
2.4 RGB-D COD model
RGB-D COD model的Encoder和COD Prediction部分與RGB COD model完全相同。
Mode Exploring:
Mode Exploring 旨在有效融合RGB特征和深度特征以進行多模态學習。
首先對每個階段的特征(一共有4個階段)使用3×3卷積層進行通道縮減,然後對每個階段的RGB特征和深度特征進行拼接操作,接着使用RCA進行判别特征提取,最後使用3×3的卷積獲得多級融合特征。
Estimated Depth:
使用U-Net結構,逐漸的将進階資訊與低級資訊融合。具體公式如下:
Cat表示拼接操作,ELU是ELU激活函數,Up2表示上采樣兩倍。
參數:
RGB COD解碼器與RGB-D COD解碼器共享權重。
我們認為高品質和低品質的深度圖都可以用來更新深度編碼器和深度解碼器,因為深度評估子產品中的平滑度損失可以推動網絡生成相對有效的深度特征。但是,“模式探索”子產品對深度品質非常敏感。然後我們隻用高品質的深度圖更新它。
2.5 深度圖品質評估
由于域間隙,從單目深度估計方法生成的深度圖可能不是很準确,直接使用低品質的深度圖訓練可能不會提高模型的性能,因為網絡會過度拟合不太準确的深度圖,導緻泛化能力差。對此,我們首先對其生成的深度圖進行品質評估,然後僅使用高品質的深度圖進行多模态資訊探索。
深度品質評估子產品由4個級聯卷積層(3×3,步長為2)和一個全連接配接層組成,以産生一個在[0,1]範圍内表示深度品質的标量。四個卷積層的通道大小分别為C,2∗C,4∗C,C。在所有卷積層之後使用批量歸一化和 LeakyReLU。最後一個全連接配接層用于将通道大小為 C 的特征圖映射到表示深度品質的二維特征向量({1,0}表示好,{0,1}表示壞)。
由于我們沒有關于深度品質的先驗知識,我們引入了一種性能引導的深度品質監督生成技術。RGB-D COD model生成的map比RGB COD model生成的map精度更高則表示更高品質的深度圖。
2.6 目标函數
整體損失:
平滑度損失将深度限制為與我們的地面真實僞裝圖共享相似的結構,其定義為:
深度估計損失:
流程僞代碼: