天天看點

Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

行人重識别之紅外圖像識别(CVPR2019)

Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

原文連結:http://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Learning_to_Reduce_Dual-Level_Discrepancy_for_Infrared-Visible_Person_Re-Identification_CVPR_2019_paper.pdf

這篇文章主要有兩個亮點:

  • 将紅外行人重識别帶進了我們的視野
  • 将行人重識别明确分割成了圖像域和特征域兩部分

紅外行人重識别

正常圖像:

Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

紅外圖像:

Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

query是正常圖像(紅外圖像),gallery是紅外圖像(正常圖像)。從這兩張圖像可以看出紅外圖像的行人重識别(IV-REID)有着很大的難度,是以也有着很大的研究空間。

IV-REID常用的兩個資料庫:

RegDB 和 SYSU-MM01

兩個域的分割

圖像域:不同的資料庫風格、紅外圖像與正常圖像、不同的攝像頭角度等。可以簡單了解為使用cyclegan的那些方法針對的都是圖像域。

特征域:圖像的特征向量。

作者将一個很多人可能一直在使用的思想進行總結提升了高度,即:先将圖像域統一,再在特征域進行提特征識别等任務。如下圖:

Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

針對這篇文章的紅外圖像的問題,先将所有圖像統一成同一風格,再提取特征。這樣比将兩者融為一體更為有效。圖中藍色虛線是将兩個步驟融為一體,可以看出黃線比藍色虛線的夾角更小。雖然這隻是一個示意圖,但是可以直覺解釋這一思想。

進一步,分析幾個文章細節:

  • 總體架構:
    Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification
    x是正常圖像(三通道),y是紅外圖像(單通道)。先使用E編碼到z,注意,作者希望由x和y編碼的z是一緻的,這也是消除了圖像域差别的展現。然後使用cyclegan由正常(紅外)圖像生成紅外(正常)圖像。最後提特征加識别。
  • 圖像次元

    生成的圖像和原圖像組合成了4維輸入,作者給出兩個原因:①兩者潛在存在關聯。②不這樣容易丢失資訊。實驗也證明了4維輸入勝過隻使用紅外圖像或者正常圖像。

  • 訓練

    圖像域部分和特征域部分先分别使用market1501(光照不好的被當做紅外圖像,感覺這裡很含糊啊…)進行預訓練,然後聯合訓練。聯合訓練可以使兩個部分的網絡互相促進和監督。

  • 消融實驗

    三元組損失比交叉熵損失還要有效(至少這篇文章的baseline是這樣),這還挺意外的,畢竟交叉熵在分類問題方面的統治地位…

  • 特征向量可視化

    經常看到特征向量可視化,卻很少有作者說明是如何可視化的,就是下圖這種:

    Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification
    這篇文章提到t-SNE(Visualizing data using t-SNE),github直接搜尋就有代碼,可以嘗試。

總結:思路清晰、實驗充分,創新雖然不是特别高,但是理論分析和理論提升的功夫很到位。

歡迎讨論 歡迎吐槽

繼續閱讀