論文提出了一個模态恢複子產品和一個模态補償子產品,分别從被去除的資訊中提取模态無關和模态相關的特征,提升VI-ReID精度,思想可以借鑒到其他多模态的任務中
論文題目:
MRCN: A Novel Modality Restitution and Compensation Network for Visible-Infrared Person Re-identification
摘要
可見-紅外人物再識别(VI-ReID)是一項具有挑戰性的任務,其目的是在不同光譜上搜尋身份,由于可見和紅外圖像之間存在較大的交叉模态差異。減少差異的關鍵是過濾掉與身份無關的幹擾,并有效地學習模态不變的人表征。在本文中,我們提出了一種新的模态恢複與補償網絡(MRCN)來縮小兩種模态之間的差距。具體來說,我們首先通過使用兩個執行個體規範化(IN)層來減少模态差異。其次,為了減少IN層對去除判别資訊的影響,減少模态差異,我們提出了一個模态恢複子產品(MRM)和一個模态補償子產品(MCM),分别從被去除的資訊中提取模态無關和模态相關的特征。然後,使用模态無關特征恢複歸一化的可見光和紅外特征,而使用模态相關特征補償其他模态特征。此外,為了更好地分離模态相關特征和模态無關特征,我們提出了一種新的中心四重因果損失(CQC)來鼓勵網絡有效地學習模态相關特征和模态無關特征。大量的實驗驗證了我們的方法在具有挑戰性的SYSU-MM01和RegDB資料集上的優越性。更值得注意的是,我們的方法在RegDB資料集上的Rank-1和mAP的準确率分别達到95.1%和89.2%。
介紹
人員再識别(Person ReID)由于在智能監控系統中具有巨大的應用潛力而受到越來越多的關注。給定查詢圖像,人員ReID的目标是比對非重疊錄影機監控系統中最相關的人員。現有的人臉識别方法主要集中于解決與人體姿勢、背景和光照變化相關的挑戰。這些方法的理想性能在很大程度上取決于良好的可見光條件,以清楚地捕捉人類的外觀特征。然而,當光照條件不理想時,監控系統通常會自動從可見光(VIS)模式切換到近紅外(NIR)模式,以應對低照度問題。是以,有必要考慮可見光-紅外人ReID (VI-ReID)的關鍵問題。VI-ReID的目标是對不同光譜的VIS和NIR相機捕獲的人進行比對,與被廣泛研究的單模态人臉識别相比,由于VIS和NIR圖像之間存在額外的跨模态差異,VI-ReID更具挑戰性。
為了減小可見光和近紅外圖像之間的模态差異,提出了兩種常用的方法。一種是圖像級方法,其目的是通過使用生成對抗網絡(GANs)将近紅外(或VIS)圖像翻譯成其VIS(或NIR)對應圖像。盡管它們在減少模态差異方面取得了成功,但由于缺乏VIS-NIR圖像對,生成跨模态圖像通常伴随着噪聲。另一種類型是特征級方法,通常訓練端到端網絡以接近具有不同模态的相同身份的樣本。得益于卷積神經網絡(cnn)強大的特征提取能力,這些方法都取得了良好的性能。然而,由于近紅外和可見光圖像之間存在較大的模态差異,使得這些方法難以将交叉模态圖像直接投影到公共特征空間中。
在本文中,我們的目标是盡量減少VIS和NIR圖像之間的模态差異,這可以被視為兩種不同風格的圖像。關鍵是找到一種方法來區分與情态相關和與情态無關的資訊。受信噪比在泛化不同風格圖像中的啟發,我們提出了一種新的模态恢複和補償網絡(MRCN)來減少模态差異。提出的MRCN通過兩個執行個體歸一化(IN)層對VIS和NIR特征執行模态歸一化,消除了VIS和NIR圖像之間的模态差異。在兩個IN層之後,提出了兩個即插即用子產品來進一步提取與模态無關和模态相關的資訊。然後,将提取的模态無關資訊恢複到歸一化特征中,以保證模型的高性能,同時利用提取的模态相關資訊對歸一化特征進行補償,以減小VIS和NIR圖像之間的模态差異。是以,所提出的MRCN可以有效地減少模态差異,同時保證高性能。
此外,為了更好地分離模态資訊,進一步減少VIS和NIR圖像之間的模态差異,我們提出了一種新的中心四重因果損失(CQC)來激勵網絡有效地提取模态相關資訊和模态不相關資訊,分别用于将模态不相關資訊恢複到歸一化的模态特征中,并補償模态相關資訊對其對應的模态特征。通過将MRCN和CQC損失結合到端到端學習架構中,該方法在兩個具有挑戰性的VI-ReID資料集上取得了令人印象深刻的性能。
我們的貢獻總結如下:
•我們提出了一種新的模态恢複和補償網絡,以解開模态相關和模态無關的特征,并減少VIS和NIR圖像之間的模态差異。特别是,解糾纏特征可以有效地減少模态差異。
•我們提出了中心四重因果損失,使解糾纏特征在模态分布上一緻,極大地促進了模态相關和模态無關特征的解糾纏,顯著提高了VI-ReID任務的性能。
•廣泛的消融實驗研究表明,MRCN在兩個具有挑戰性的VI-ReID基準測試中優于幾種最先進的方法。特别是在RegDB資料集上,我們的方法在Rank-1方面達到95.1%,在mAP方面達到89.2%。
相關工作
VI-ReID任務的方法主要有兩類:圖像級方法和特征級方法
圖像級方法
圖像級方法通過将一種模态轉換為另一種模态來減少模态差異。例如,D2RL 和AlignGAN将近紅外圖像轉換為VIS圖像,并将VIS圖像轉換為近紅外圖像。JSIA-ReID生成跨模态配對圖像,并執行全局集級和細粒度執行個體級對齊。
這些方法通常設計複雜的生成模型來對齊跨模态圖像,盡管取得了成功,但由于缺乏VIS-NIR圖像對,生成跨模态圖像不可避免地伴随着噪聲。最近,Xmodality及其變體(如SMPL和MMN )利用輕量級網絡獲得輔助模态來輔助跨模态搜尋。然而,這種輔助模态與VIS-NIR模态之間仍然存在模态差距。
特征級方法
特征級方法旨在找到一個模态共享和模态特定的特征空間,其中模态差異最小。為此,CM-NAS利用了面向bn的搜尋空間,可以在其中實作标準優化。MCLNet 提出最小化模态間差異,最大化跨模态相似性。受對抗性學習的啟發,cmGAN 設計了一個前沿的判别器來學習來自不同模态的判别特征表示。MPANet引入了模态緩解子產品和模式對齊子產品,共同提取判别特征。然而,由于VIS和NIR圖像之間存在較大的模态差異,是以很難将跨模态圖像直接投影到公共空間中。
方法
模型架構
圖2提供了提議的MRCN的概述,在MRCN中,首先使用兩個執行個體歸一化(In)層來消除VIS和NIR模态之間的模态差異。然後,利用所提出的模态恢複子產品(MRM)和模态補償子產品(MCM)降低了IN層對去除判别資訊的影響,減小了VIS和NIR圖像之間的模态差距。此外,我們提出了一個新的中心四重因果損失(CQC)來鼓勵網絡學習模态相關和模态不相關的特征,它們分别用于将模态不相關的資訊恢複到歸一化的模态特征中,并補償模态相關的資訊為對應的模态特征。在推理過程中,特征不使用MCM提取的。将原始特征與MRM提取的特征連接配接起來進行測試。
模态恢複和補償網絡
由于可見光譜的反射率與近紅外光譜的發射率存在天然差異,不同模态的人像之間存在較大的模态差異。在本文中,我們使用兩個In層分别對VIS和NIR模态進行模态歸一化。然而,IN層會導緻一些判别資訊的丢失,受信噪比研究的啟發,我們建議進一步從被删除的資訊中提取模态無關的特征,并将其恢複到網絡中,以確定提取的特征具有較高的識别率。此外,我們還從被删除的資訊中提取出與模态相關的特征,并将它們添加到對應的模态中,以補償兩個模态之間的差異。
為友善起見,我們首先定義VI-ReID任務,所提出的MRCN采用具有相同身份但不同模态的圖像對作為輸入。設Fv和Fn分别表示與VIS和NIR模式相對應的主幹網第一階段層輸出的特征。首先,我們使用兩個IN層對Fv和Fn進行模态歸一化,對于VIS模式,我們有:
對于近紅外模式,我們有:
其中µ(·)和σ(·)分别是特征Fv和Fn的平均值和标準差,它們是在每個通道和每個輸入的空間次元上計算的,γv, γn, βv和βn是從網絡中學習到的參數。
由于IN層可以從圖像内容中過濾出一些模态資訊,是以可以将原始特征Fv(或Fn)與模态歸一化特征~Fv(或~Fn)之間的差Mv(或Mn)視為模态相關資訊,其表達式為:
雖然Mv和Mn可以反映模态資訊,但是IN層可能會導緻一些判别資訊被丢棄。此外,Mv和Mn中還存在一些與模态無關的資訊。是以,我們通過提出的MRM和MCM進一步提取它,以獲得與情态無關和與情态相關的資訊。
模态恢複子產品 模态恢複子產品(MRM)用于将模态無關但身份相關的資訊恢複到網絡中,以確定我們的MRCN的高性能。由于VIS和NIR模态之間的模态差異主要在于通道空間,本文提出的MRM采用兩個簡單的通道注意子產品Av1和An1,分别從Mv和Mn中提取與模态無關但與身份相關的資訊。然後,我們得到蒸餾後的資訊Mv+和Mn+,可以寫成:
其中通道關注子產品Av1和An1采用SE-Net , SE-Net由一個全局平均池化層和兩個全連接配接層組成,然後是ReLU激活函數和sigmoid激活函數。為了減少參數的數量,将降維比例設定為16。然後,我們恢複了模态無關但識别相關的資訊Mv+和Mn+,将上述蒸餾過程轉化為歸一化模态特征Fv+和Fn+,可寫成:
最後,利用Fv+和Fn+作為MRM的輸出特征對網絡進行優化,以保證所提MRCN的高性能。
模态補償子產品 模态補償子產品(MCM)旨在補償與模态相關但與身份無關的資訊,以減少兩模态之間的模态差異。與MRM類似,我們還使用了兩個類似senet的通道關注子產品Av2和An2來提取原始輸入特征Fv(或Fn)和歸一化模态特征Ffn(或Ffv)之間的差Mv(Mn)。然後,我們可以得到與模态相關但與恒等無關的資訊Mv−和Mn−,可以表示為:
MCM和MRM的不同之處在于,我們用對應的模态來補償與模态相關但與身份無關的資訊。這裡,設Fv−和Fn−分别表示MCM在VIS和NIR模式下提取的補償特征。然後我們有:
這樣,我們就可以從上面的提煉過程中獲得與模态相關但與身份無關的資訊。将Mv−(或Mn−)加到歸一化模态特征Fn(或Fv)上,可以得到補償特征Fn−(或Fv−),這可以看作是人在VIS(或NIR)模态中的相應特征。是以,MCM的輸出特征Fv−和Fn−有利于網絡的聯合優化,通過這種方式,VIS模态和近紅外模态之間的模态差異可以顯著減少。
中心-四重因果損失
為了更好地分離模态相關和模态無關的資訊,我們提出了一個新的中心四重因果損失(CQC)來限制輸出特征,使我們的網絡在保持高性能的同時減少模态差異。我們将MRCN輸出的特征表示為f = {fv, fv+, fv−, fn−, fn+, fn};fv和fn是VIS和NIR模态的原始特征,fv+和fn+是MRM輸出的特征,fv-和fn-是MCM輸出的特征。
對于MRM,所提出的CQC損失的目的是使MRM輸出的特征更具判别性。具體來說,我們首先計算每個身份的恢複特征(fv+/fn+)的特征中心。我們表示中心特征為(cv+/cn+)。然後,我們使特征中心(cv+/cn+)與另一模态的原始特征中心(cn/cv)的距離小于其與同一模态的原始特征中心(cv/cn)的距離,是以,對于MRM,建議的CQC損失可表示為:
其中D(a, b)是a和特征b之間的歐氏距離, C是minibatch中的類大小,α是一個邊距參數,[z]+ = max(z, 0). civ, cin, civ+和cin+來自同一個恒等式。
類似地,對于MCM,建議的CQC損失應該啟用利用MCM輸出的特征來減少模态VIS和NIR圖像之間的間隙。具體來說,我們首先計算補償特征的特征中心(fv−/fn−)。我們将中心特征設為(cv-/ cn−)。然後,我們得到中心特征(cv−/cn−)離特征中心(cn/cv)的距離更小,而不是它到特征中心的距離(cv/cn)的原始模态相同的身份。是以,對于MCM,建議的CQC損失可寫為:
Multi-Loss優化
除了提出的LCQC外,我們還結合了标簽平滑交叉熵損失Llsce 和三重熵損失Ltri ,通過最小化這三種損失的總和來共同優化網絡,其可表述為:
其中λ1和λ2是控制損失項相對重要性的系數。
實驗
資料集
SYSU-MM01資料集包含491個身份,由4台VIS錄影機和2台近紅外錄影機捕獲。訓練集包含19659張VIS圖像和792個身份的12395張近紅外圖像,測試集包含3803張96個身份的近紅外圖像作為查詢集。RegDB資料集由412個身份組成,每個身份有10個VIS圖像和10個NIR圖像,這些圖像由一對重疊的相機捕獲,我們評估了可見光到紅外和紅外到可見光兩種模式下的比賽方法。
實作細節
将所有輸入圖像的大小調整為3 × 288 × 128,并進行随機水準翻轉和随機擦除,在訓練階段采用技術進行資料增強。初始學習率設定為1×10−2,10次後線性增加為1×10−1。在預熱過程之後,我們在第20個epoch将學習率衰減到1 × 10−2,在第60個epoch進一步衰減到1 × 10−3,直到總共80個epoch。在每個小批中,我們随機選擇4個身份的4張VIS圖像和4張NIR圖像進行訓練。采用SGD優化器進行優化,動量參數設為0.9,對于CQC損耗中的裕度參數,我們在實驗中将其設定為0.2。對于Eq.(11)中的系數λ1,我們将其設為1。
與最先進方法的比較
我們首先将我們的方法與幾種最先進的方法進行比較,以證明我們的方法的優越性。
RegDB:在表1中我們可以看到,在RegDB上的實驗結果表明,在不同的測試模式下,MRCN在所有競争的最先進的方法中都取得了最好的性能。具體來說,在可見光到紅外模式下,MRCN (MRCN- p)在Rank1上的準确率為91.4%(95.1%),在mAP上的準确率為84.6%(89.2%)。MRCN-P在Rank-1準确度和mAP準确度上分别比第二好的MMN 高出3.5%和5.1%。對于紅外到可見光模式,MRCN (MRCN- p)在Rank-1精度上也達到88.3%(92.6%),在mAP精度上達到81.9%(86.5%)。MRCN-P在Rank-1準确度和mAP準确度上分别比第二好的MMN 高出3.5%和5.1%。
SYSU-MM01:表1對SYSU-MM01的分析結果表明,MRCN在All-Search和indoor search兩種模式下都具有競争力。對于AllSearch模式,MRCN (MRCN- p)在Rank-1的準确率達到68.9%(70.8%),在mAP的準确率達到65.5%(67.3%)。對于Indoor-Search模式,MRCN (MRCN- p)的Rank-1準确率為76.0% (76.4%),mAP的準确率為79.8%(80.0%),對比結果驗證了該方法的有效性。此外,研究結果還表明,MRCN (MRCN- p)可以有效地降低VIS和NIR圖像之間的模态差異。
此外,與SYSU-MM01相比,RegDB中的人物姿态在VIS和NIR圖像之間更加對齊。MRCN中的MCM用于補償模态-相關特征為其他模态的特征,這在姿勢對齊時具有積極的影響。是以,MRCN可以在RegDB上産生更好的結果。在推理效率方面,一方面,MRCN雖然比這些方法消耗更多的時間,但VI-ReID任務的評估消耗的時間并不多(約為25-32s)。另一方面,MRCN雖然使用了更多的時間,但在Rank-1和mAP中取得了顯著的結果改善(95.1%和89.2%)。
消融研究
不同成分的影響 為了證明每個組分對MRCN的貢獻,我們對RegDB和SYSU-MM01進行了一些消融研究。如表2所示,不使用CQC損失的MRCN可以提高基線模型的性能,這表明模态恢複和補償可以有效地減少模态差異。相比之下,具有CQC損失的MRCN可以促進模态相關和模态無關特征的解耦。此外,特征的抽離有助于有效地學習更豐富的資訊,進而提高模型的性能。此外,MRM和MCM都可以提高基線模型的性能,并且兩個元件的組合可以達到最佳性能,表明MRM和MCM可以互補。
在ResNet-50的哪個階段插入MRCN的有效性 我們将MRCN插入ResNet-50的不同階段,研究它如何影響MRCN的性能。從表3可以看出,RegDB上stage-1後的MRCN和SYSU-MM01上stage-0後的MRCN分别達到了最佳性能,這說明RegDB經過stage-1, SYSU-MM01經過stage-0後,所提出的MRCN更适合于模态相關和模态無關特征的分離。
與信噪比比較 信噪比(Jin et al . 2020)與MRCN相似,因為這兩種方法都采用了特征解纏技術來減少風格差距。然而,MRCN與信噪比在以下三個方面有所不同:(1)信噪比隻向網絡提供與身份相關的特征,而丢棄與身份無關的特征,然而,MRCN彌補了其他模式的特點。(2) SNR的輸出直接輸入到loss中進行解耦,而MRCN将所有特征輸入到骨幹的其餘部分,這可以看作是進一步的蒸餾,是以更有利于CQC loss對模态資訊進行解耦。這就是MRCN優于信噪比的原因。(3)信噪比适用于較小的樣式間隙,可以丢棄。然而,當面對較大的風格差距,如VIS和NIR圖像時,最好是用其他形式來彌補風格差距。是以,MRCN在VI-ReID中優于信噪比。為了公平比較,我們在表4中對SNR和MRCN使用相同的基線進行了實驗,結果表明,在RegDB上,MRCN在Rank-1精度上比SNR高6.3%,在mAP上比SNR高7.2%,在SYSU-MM01上,MRCN在Rank-1精度上比SNR高5.1%,在mAP上比SNR高4.3%。實驗結果表明,MRCN在減小模态差異方面比信噪比更有效。
不同注意力塊的影響 在MRCN中,se塊用于提取模态資訊,其他注意塊也可以實作這一目的。MRCN性能改進的關鍵是将特征輸入到主幹的其餘部分通過CQC損失進行解耦,表2中有/沒有CQC損失的MRCN結果證明了這一點。此外,我們比較了不同注意力塊(CBAM, eca塊, se塊)對RegDB (R-1 / mAP)上MRCN的影響如下:91.1 / 83.9,91.4 / 84.1,91.4 / 84.6,結果表明,不同的注意塊對學習成績沒有顯著影響。
超參數λ2對CQC損耗的影響 在Eq.(11)中,我們使用參數λ2來控制LCQC與Llsce和Ltri之間的權衡。為了評估影響,我們進行了定量比較,并在圖4中報告了結果,結果表明,當參數λ2為1.2時,系統性能最佳。
可視化
特征分布 為了研究MRCN有效的原因,我們在圖5 (ae)中進行了實驗來計算類間和類内距離的頻率。對比圖5 (c-e)和圖5 (a-b)可以發現,類間和類内距離的均值被MRM和MCM推離,其中δ1 <δ2 <δ3和δ1 <δ2 <δ4。與初始特征和基線特征的類内距離相比,MRCN的類内距離明顯減小。結果表明,MRCN可以有效地減小VIS模态與NIR模态之間的模态差異。為了進一步驗證所提出的MRCN的有效性,我們繪制了MRCN特征表示在二維特征空間中的t-SNE (Maaten and Hinton 2008)分布,用于可視化。如圖5 (f-j)所示,所提出的MRCN可以大大縮短VIS模态與NIR模态中相同身份對應的圖像之間的距離,有效減小模态差異。
檢索結果 為了進一步評估所提出的MRCN,我們使用多鏡頭設定和全搜尋模式,在SYSU-MM01資料集的幾對圖像上,将我們的方法獲得的檢索結果與基線獲得的檢索結果進行了比較,結果如圖6所示。對于每個檢索案例,第一列顯示的查詢圖像為近紅外圖像,後面列顯示的圖庫圖像為VIS圖像。檢索到的帶有綠色邊界框的圖像與查詢屬于相同的身份,而帶有紅色邊界框的圖像與查詢相反。總的來說,所提出的MRCN可以有效地提高排名結果,使更多的綠色邊界框排在前幾位。
結論
在本文中,我們提出了一種新的MRCN來縮小VIS和NIR模式之間的差距,具體來說,我們首先通過使用兩個IN層來減少模态差異。接下來,為了減少IN層對去除判别資訊的影響,我們提出了一個MRM子產品來提取與模态無關的特征,并提出了一個MCM子產品來從被去除的資訊中提取與模态相關的特征,然後,使用模态無關特征來恢複歸一化的VIS和NIR特征,而使用模态相關特征來補償其他模态特征,此外,我們提出了一種新的CQC損失來鼓勵網絡有效地學習解糾纏的特征。大量的實驗驗證了我們的方法在具有挑戰性的SYSU-MM01和RegDB資料集上的VI-ReID的優越性。