天天看點

2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss

論文位址

Motivation

  • 如今的Re-ID工作大多是将特征學習與度量學習分開,那麼能不能把兩者一起學習來提高性能呢?
  • 同時對整張圖像直接提取特征往往不能捕捉圖像中人物的細節資訊,怎麼能設計模型來更好利用局部特征呢?
  • 之前的triplet loss僅僅使類内距離小于類間距離就行,這樣學習出來的類簇相對較大,能不能學到更緊湊的類簇來提高判别力呢?
  • 本文的multi-channel + improved triplet loss

Contribution

  • 提出了multi-channel CNN model來同時學習身體全局特征以及局部細節特征,最後将兩者結合作為輸入行人圖像的表示
  • an improved triplet loss function:不僅要求類内距離小于類間距離,同時還要小于一個預先定義的margin,通過改進的loss能夠進一步提高模型的精度

1.Introduction

  • Re-ID定義:在跨攝像頭或跨時間識别行人
  • 應用:
    • 視訊監控
    • 人機互動
    • 機器人
    • 視訊内容檢索
  • 挑戰:
    • 不同攝像頭視角下視覺外觀以及周圍環境的距離變化
    • 行人姿勢在時間與空間上的巨大變化
    • 背景混雜以及遮擋
    • 不同行人可能會有相似的外觀
      2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
  • 本文動機與貢獻

2.Related Work

  • re-ID的工作兩大方面:
    • 特征提取:
      • color histograms and their variants
      • local binary pattern
      • Gabor features
      • color name
      • other visual appearance or contextual cues
    • 距離度量:
      • Mahalanobis metric learning(KISSME)
      • Local Fisher Discriminant Analysis(LFDA)
      • Marginal Fisher Analysis(MFA)
      • large margin nearest neighbour(LMNN)
      • Locally Adaptive Decision Functions(LADF)
      • attribute consistent matching
  • 深度學習方法:
    • 有關Triplet loss應用的:
      • fine grained image similarity metrics
      • FaceNet
      • Deep feature learning with relative distance comparison for person re- identification
    • 其他工作:
      • FPNN
      • DeepM
      • mFilter:local path matching method
      • 2015 CVPR An Improved Deep Learning Architecture for Person Re-Identification
  • 本文工作與上述工作的不同:
    • 網絡結構:使用了由多個分支構成大單一網絡來學習全局與局部特征
    • loss function:improved triplet loss使類内更近、類間更遠

3.The Proposed Person Re-Id Method

3.1. The Overall Framework

  • 如下圖是一個triplet training,三個部分共享參數,每個部分都為本文提出的multi-channel CNN model
    2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
  • 該模型将輸入 Ii=<Ioi,I+i,I−i> I i =< I i o , I i + , I i − > 映射到 ϕw(Ii)=<ϕw(Ioi),ϕw(I+i),ϕw(I−i)> ϕ w ( I i ) =< ϕ w ( I i o ) , ϕ w ( I i + ) , ϕ w ( I i − ) > ,其中 ϕw(Ioi) ϕ w ( I i o ) 與 ϕw(I+i) ϕ w ( I i + ) 距離小于一個margin,其中 ϕw(Ioi) ϕ w ( I i o ) 與 ϕw(I−i) ϕ w ( I i − ) 距離較遠

3.2. Multi-Channel Parts-based CNN Model

  • 主要層:如下圖
    • 一個全局卷積層:7x7filter size,stride=3
    • 全身卷積層
    • 4個身體分塊卷積層
    • 5個各自通道的全連接配接層
      2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
  • 全身通道:conv:5x5 s=1 –> max-pooling:3x3 –> conv:3x3 s=1 –>max-pooling:3x3 –> fc:400
  • 4個身體分塊通道:conv:3x3 s=1 –> conv:3x3 s=1 –>fc 100
  • 對于較大的資料集CUHK01,對五個通道各加了一個卷積層,本文使用了兩種網絡配置
  • 在最後對各通道輸出的向量進行了拼接,特征向量同時有全局與局部的特征,能帶來顯著的性能提升。

3.3. Improved Triplet Loss Function

  • original triplet: loss:隻是要求類内小于内間距離,類簇可能相對較大,這樣會影響re-id的性能

    dn(Ioi,I+i,I−i,w)=d(ϕw(Ioi),ϕw(I+i))−d(ϕw(Ioi),ϕw(I−i))⩽τ1. d n ( I i o , I i + , I i − , w ) = d ( ϕ w ( I i o ) , ϕ w ( I i + ) ) − d ( ϕ w ( I i o ) , ϕ w ( I i − ) ) ⩽ τ 1 .

  • improved triplet: loss:要求類内也要小于一個margin

    dp(Ioi,I+i,w)=d(ϕw(Ioi),ϕw(I+i))⩽τ2 d p ( I i o , I i + , w ) = d ( ϕ w ( I i o ) , ϕ w ( I i + ) ) ⩽ τ 2

  • 最終公式如下:

    L(I,w)=1N∑i=1N(max{dn(Ioi,I+i,I−i,w),τ1}inter−class−constraint+βmax{dp(Ioi,I+i,I−i,w),τ2}intra−class−constraint)d(ϕw(Ioi),ϕw(I+i))=‖ϕw(Ioi)−ϕw(I+i)‖2 L ( I , w ) = 1 N ∑ i = 1 N ( m a x { d n ( I i o , I i + , I i − , w ) , τ 1 } ⏟ i n t e r − c l a s s − c o n s t r a i n t + β m a x { d p ( I i o , I i + , I i − , w ) , τ 2 } ⏟ i n t r a − c l a s s − c o n s t r a i n t ) d ( ϕ w ( I i o ) , ϕ w ( I i + ) ) = ‖ ϕ w ( I i o ) − ϕ w ( I i + ) ‖ 2

3.4. The Traning Algorithm

  • 具體流程如下:
    2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss

4. Experiment

4.1. Setup

  • Data augmentation: resize圖檔到100x250,然後随機crop80x230并加上微小的随機擾動
  • Setting training parameters::
    • 權重初始化:兩個均值為0的高斯分布,一個方差為0.01,另一個方差為0.001
    • 産生triplets:batch size=100,随機選五個人,對每個人随機生成20個triplets,相同對從類中選,不同對從剩下的類中選。
    • τ1,τ2,β τ 1 , τ 2 , β 分别設定為-1,0.01,0.002
  • DataSets:
    • i-LIDS
    • PRID2011
    • VIPeR
    • CUHK01
  • Evaluation protocol: cumulative match curve(CMC) metric:CMC曲線Rank1識别率就是表示按照某種相似度比對規則比對後,第一次就能判斷出正确的标簽的數目與總的測試樣本數目之比,Rank5識别率就是指前五項(按照比對程度從大到小排列後)有正确比對。如果一個樣本按照比對程度從大到小排列後,到最後一項,才比對到正确标簽

4.2.Experiment Evaluations

  • 通過4個變體來說明本文提出方法的有效性:
    • Variant1(T):去除了4個body-part通道并使用原始的triplet loss
    • Variant2(TC):相比T,使用了改進的triplet loss
    • Variant3(TP):使用五個通道與原始的triplet loss
    • Variant4(TPC):相比TP,使用了改進的triplet loss
  • 具體結果如下:
    2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
    2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
    2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
  • 對于較大的CUHK01,對上面四個變體每個通道各多加了一個卷積層
    2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
  • 交叉驗證對 β β 進行了選擇,結果如下:
    2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss

4.3.Analysis of different body parts

  • 對于不同身體部分貢獻程度的比較:訓練了4個網絡每個網絡由full-body通道以及4個body-part的一個組成,結果如下圖:
    2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
  • 對卷積層學習到的特征圖進行了可視化,可以看到full-body通道捕捉到了全局資訊,part-body捕捉到了局部的細節資訊
    2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss

5.Conclusion

  • 總結了本文提出的架構對于聯合學習全局與局部細節特征的作用,以及改進的triplet loss能使類内距離更近、類間距離更遠的效果
  • 本文的方法在大多數資料集上取得了SOTA的性能
  • 将來工作:将我們的方法應用在圖像以及視訊檢索問題上

繼續閱讀