論文位址
Motivation
- 如今的Re-ID工作大多是将特征學習與度量學習分開,那麼能不能把兩者一起學習來提高性能呢?
- 同時對整張圖像直接提取特征往往不能捕捉圖像中人物的細節資訊,怎麼能設計模型來更好利用局部特征呢?
- 之前的triplet loss僅僅使類内距離小于類間距離就行,這樣學習出來的類簇相對較大,能不能學到更緊湊的類簇來提高判别力呢?
- 本文的multi-channel + improved triplet loss
Contribution
- 提出了multi-channel CNN model來同時學習身體全局特征以及局部細節特征,最後将兩者結合作為輸入行人圖像的表示
- an improved triplet loss function:不僅要求類内距離小于類間距離,同時還要小于一個預先定義的margin,通過改進的loss能夠進一步提高模型的精度
1.Introduction
- Re-ID定義:在跨攝像頭或跨時間識别行人
- 應用:
- 視訊監控
- 人機互動
- 機器人
- 視訊内容檢索
- 挑戰:
- 不同攝像頭視角下視覺外觀以及周圍環境的距離變化
- 行人姿勢在時間與空間上的巨大變化
- 背景混雜以及遮擋
- 不同行人可能會有相似的外觀
- 本文動機與貢獻
2.Related Work
- re-ID的工作兩大方面:
- 特征提取:
- color histograms and their variants
- local binary pattern
- Gabor features
- color name
- other visual appearance or contextual cues
- 距離度量:
- Mahalanobis metric learning(KISSME)
- Local Fisher Discriminant Analysis(LFDA)
- Marginal Fisher Analysis(MFA)
- large margin nearest neighbour(LMNN)
- Locally Adaptive Decision Functions(LADF)
- attribute consistent matching
- 特征提取:
- 深度學習方法:
- 有關Triplet loss應用的:
- fine grained image similarity metrics
- FaceNet
- Deep feature learning with relative distance comparison for person re- identification
- 其他工作:
- FPNN
- DeepM
- mFilter:local path matching method
- 2015 CVPR An Improved Deep Learning Architecture for Person Re-Identification
- 有關Triplet loss應用的:
- 本文工作與上述工作的不同:
- 網絡結構:使用了由多個分支構成大單一網絡來學習全局與局部特征
- loss function:improved triplet loss使類内更近、類間更遠
3.The Proposed Person Re-Id Method
3.1. The Overall Framework
- 如下圖是一個triplet training,三個部分共享參數,每個部分都為本文提出的multi-channel CNN model
- 該模型将輸入 Ii=<Ioi,I+i,I−i> I i =< I i o , I i + , I i − > 映射到 ϕw(Ii)=<ϕw(Ioi),ϕw(I+i),ϕw(I−i)> ϕ w ( I i ) =< ϕ w ( I i o ) , ϕ w ( I i + ) , ϕ w ( I i − ) > ,其中 ϕw(Ioi) ϕ w ( I i o ) 與 ϕw(I+i) ϕ w ( I i + ) 距離小于一個margin,其中 ϕw(Ioi) ϕ w ( I i o ) 與 ϕw(I−i) ϕ w ( I i − ) 距離較遠
3.2. Multi-Channel Parts-based CNN Model
- 主要層:如下圖
- 一個全局卷積層:7x7filter size,stride=3
- 全身卷積層
- 4個身體分塊卷積層
- 5個各自通道的全連接配接層
- 全身通道:conv:5x5 s=1 –> max-pooling:3x3 –> conv:3x3 s=1 –>max-pooling:3x3 –> fc:400
- 4個身體分塊通道:conv:3x3 s=1 –> conv:3x3 s=1 –>fc 100
- 對于較大的資料集CUHK01,對五個通道各加了一個卷積層,本文使用了兩種網絡配置
- 在最後對各通道輸出的向量進行了拼接,特征向量同時有全局與局部的特征,能帶來顯著的性能提升。
3.3. Improved Triplet Loss Function
-
original triplet: loss:隻是要求類内小于内間距離,類簇可能相對較大,這樣會影響re-id的性能
dn(Ioi,I+i,I−i,w)=d(ϕw(Ioi),ϕw(I+i))−d(ϕw(Ioi),ϕw(I−i))⩽τ1. d n ( I i o , I i + , I i − , w ) = d ( ϕ w ( I i o ) , ϕ w ( I i + ) ) − d ( ϕ w ( I i o ) , ϕ w ( I i − ) ) ⩽ τ 1 .
-
improved triplet: loss:要求類内也要小于一個margin
dp(Ioi,I+i,w)=d(ϕw(Ioi),ϕw(I+i))⩽τ2 d p ( I i o , I i + , w ) = d ( ϕ w ( I i o ) , ϕ w ( I i + ) ) ⩽ τ 2
-
最終公式如下:
L(I,w)=1N∑i=1N(max{dn(Ioi,I+i,I−i,w),τ1}inter−class−constraint+βmax{dp(Ioi,I+i,I−i,w),τ2}intra−class−constraint)d(ϕw(Ioi),ϕw(I+i))=‖ϕw(Ioi)−ϕw(I+i)‖2 L ( I , w ) = 1 N ∑ i = 1 N ( m a x { d n ( I i o , I i + , I i − , w ) , τ 1 } ⏟ i n t e r − c l a s s − c o n s t r a i n t + β m a x { d p ( I i o , I i + , I i − , w ) , τ 2 } ⏟ i n t r a − c l a s s − c o n s t r a i n t ) d ( ϕ w ( I i o ) , ϕ w ( I i + ) ) = ‖ ϕ w ( I i o ) − ϕ w ( I i + ) ‖ 2
3.4. The Traning Algorithm
- 具體流程如下:
4. Experiment
4.1. Setup
- Data augmentation: resize圖檔到100x250,然後随機crop80x230并加上微小的随機擾動
- Setting training parameters::
- 權重初始化:兩個均值為0的高斯分布,一個方差為0.01,另一個方差為0.001
- 産生triplets:batch size=100,随機選五個人,對每個人随機生成20個triplets,相同對從類中選,不同對從剩下的類中選。
- τ1,τ2,β τ 1 , τ 2 , β 分别設定為-1,0.01,0.002
- DataSets:
- i-LIDS
- PRID2011
- VIPeR
- CUHK01
- Evaluation protocol: cumulative match curve(CMC) metric:CMC曲線Rank1識别率就是表示按照某種相似度比對規則比對後,第一次就能判斷出正确的标簽的數目與總的測試樣本數目之比,Rank5識别率就是指前五項(按照比對程度從大到小排列後)有正确比對。如果一個樣本按照比對程度從大到小排列後,到最後一項,才比對到正确标簽
4.2.Experiment Evaluations
- 通過4個變體來說明本文提出方法的有效性:
- Variant1(T):去除了4個body-part通道并使用原始的triplet loss
- Variant2(TC):相比T,使用了改進的triplet loss
- Variant3(TP):使用五個通道與原始的triplet loss
- Variant4(TPC):相比TP,使用了改進的triplet loss
- 具體結果如下:
- 對于較大的CUHK01,對上面四個變體每個通道各多加了一個卷積層
- 交叉驗證對 β β 進行了選擇,結果如下:
4.3.Analysis of different body parts
- 對于不同身體部分貢獻程度的比較:訓練了4個網絡每個網絡由full-body通道以及4個body-part的一個組成,結果如下圖:
- 對卷積層學習到的特征圖進行了可視化,可以看到full-body通道捕捉到了全局資訊,part-body捕捉到了局部的細節資訊
5.Conclusion
- 總結了本文提出的架構對于聯合學習全局與局部細節特征的作用,以及改進的triplet loss能使類内距離更近、類間距離更遠的效果
- 本文的方法在大多數資料集上取得了SOTA的性能
- 将來工作:将我們的方法應用在圖像以及視訊檢索問題上