2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss

論文位址

Motivation

如今的Re-ID工作大多是将特征學習與度量學習分開，那麼能不能把兩者一起學習來提高性能呢？
同時對整張圖像直接提取特征往往不能捕捉圖像中人物的細節資訊，怎麼能設計模型來更好利用局部特征呢？
之前的triplet loss僅僅使類内距離小于類間距離就行，這樣學習出來的類簇相對較大，能不能學到更緊湊的類簇來提高判别力呢？
本文的multi-channel + improved triplet loss

Contribution

提出了multi-channel CNN model來同時學習身體全局特征以及局部細節特征，最後将兩者結合作為輸入行人圖像的表示
an improved triplet loss function：不僅要求類内距離小于類間距離，同時還要小于一個預先定義的margin，通過改進的loss能夠進一步提高模型的精度

1.Introduction

Re-ID定義：在跨攝像頭或跨時間識别行人
應用：
- 視訊監控
- 人機互動
- 機器人
- 視訊内容檢索
挑戰：
- 不同攝像頭視角下視覺外觀以及周圍環境的距離變化
- 行人姿勢在時間與空間上的巨大變化
- 背景混雜以及遮擋
- 不同行人可能會有相似的外觀
  
  2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
本文動機與貢獻

2.Related Work

re-ID的工作兩大方面：
- 特征提取：
  - color histograms and their variants
  - local binary pattern
  - Gabor features
  - color name
  - other visual appearance or contextual cues
- 距離度量：
  - Mahalanobis metric learning(KISSME)
  - Local Fisher Discriminant Analysis(LFDA)
  - Marginal Fisher Analysis(MFA)
  - large margin nearest neighbour(LMNN)
  - Locally Adaptive Decision Functions(LADF)
  - attribute consistent matching
深度學習方法：
- 有關Triplet loss應用的：
  - fine grained image similarity metrics
  - FaceNet
  - Deep feature learning with relative distance comparison for person re- identification
- 其他工作：
  - FPNN
  - DeepM
  - mFilter：local path matching method
  - 2015 CVPR An Improved Deep Learning Architecture for Person Re-Identification
本文工作與上述工作的不同：
- 網絡結構：使用了由多個分支構成大單一網絡來學習全局與局部特征
- loss function：improved triplet loss使類内更近、類間更遠

3.The Proposed Person Re-Id Method

3.1. The Overall Framework

如下圖是一個triplet training，三個部分共享參數，每個部分都為本文提出的multi-channel CNN model

2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
該模型将輸入 Ii=<Ioi,I+i,I−i> I i =< I i o , I i + , I i − > 映射到 ϕw(Ii)=<ϕw(Ioi),ϕw(I+i),ϕw(I−i)> ϕ w ( I i ) =< ϕ w ( I i o ) , ϕ w ( I i + ) , ϕ w ( I i − ) > ，其中 ϕw(Ioi) ϕ w ( I i o ) 與 ϕw(I+i) ϕ w ( I i + ) 距離小于一個margin，其中 ϕw(Ioi) ϕ w ( I i o ) 與 ϕw(I−i) ϕ w ( I i − ) 距離較遠

3.2. Multi-Channel Parts-based CNN Model

主要層：如下圖
- 一個全局卷積層:7x7filter size，stride=3
- 全身卷積層
- 4個身體分塊卷積層
- 5個各自通道的全連接配接層
  
  2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
全身通道：conv:5x5 s=1 –> max-pooling:3x3 –> conv:3x3 s=1 –>max-pooling:3x3 –> fc:400
4個身體分塊通道：conv:3x3 s=1 –> conv:3x3 s=1 –>fc 100
對于較大的資料集CUHK01，對五個通道各加了一個卷積層，本文使用了兩種網絡配置
在最後對各通道輸出的向量進行了拼接，特征向量同時有全局與局部的特征，能帶來顯著的性能提升。

3.3. Improved Triplet Loss Function

original triplet: loss:隻是要求類内小于内間距離，類簇可能相對較大，這樣會影響re-id的性能

dn(Ioi,I+i,I−i,w)=d(ϕw(Ioi),ϕw(I+i))−d(ϕw(Ioi),ϕw(I−i))⩽τ1. d n ( I i o , I i + , I i − , w ) = d ( ϕ w ( I i o ) , ϕ w ( I i + ) ) − d ( ϕ w ( I i o ) , ϕ w ( I i − ) ) ⩽ τ 1 .
improved triplet: loss:要求類内也要小于一個margin

dp(Ioi,I+i,w)=d(ϕw(Ioi),ϕw(I+i))⩽τ2 d p ( I i o , I i + , w ) = d ( ϕ w ( I i o ) , ϕ w ( I i + ) ) ⩽ τ 2
最終公式如下：

L(I,w)=1N∑i=1N(max{dn(Ioi,I+i,I−i,w),τ1}inter−class−constraint+βmax{dp(Ioi,I+i,I−i,w),τ2}intra−class−constraint)d(ϕw(Ioi),ϕw(I+i))=‖ϕw(Ioi)−ϕw(I+i)‖2 L ( I , w ) = 1 N ∑ i = 1 N ( m a x { d n ( I i o , I i + , I i − , w ) , τ 1 } ⏟ i n t e r − c l a s s − c o n s t r a i n t + β m a x { d p ( I i o , I i + , I i − , w ) , τ 2 } ⏟ i n t r a − c l a s s − c o n s t r a i n t ) d ( ϕ w ( I i o ) , ϕ w ( I i + ) ) = ‖ ϕ w ( I i o ) − ϕ w ( I i + ) ‖ 2

3.4. The Traning Algorithm

具體流程如下：

2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss

4. Experiment

4.1. Setup

Data augmentation: resize圖檔到100x250，然後随機crop80x230并加上微小的随機擾動
Setting training parameters::
- 權重初始化:兩個均值為0的高斯分布，一個方差為0.01,另一個方差為0.001
- 産生triplets:batch size=100，随機選五個人，對每個人随機生成20個triplets，相同對從類中選，不同對從剩下的類中選。
- τ1,τ2,β τ 1 , τ 2 , β 分别設定為-1，0.01，0.002
DataSets:
- i-LIDS
- PRID2011
- VIPeR
- CUHK01
Evaluation protocol: cumulative match curve(CMC) metric：CMC曲線Rank1識别率就是表示按照某種相似度比對規則比對後，第一次就能判斷出正确的标簽的數目與總的測試樣本數目之比，Rank5識别率就是指前五項（按照比對程度從大到小排列後）有正确比對。如果一個樣本按照比對程度從大到小排列後，到最後一項，才比對到正确标簽

4.2.Experiment Evaluations

通過4個變體來說明本文提出方法的有效性：
- Variant1(T):去除了4個body-part通道并使用原始的triplet loss
- Variant2(TC):相比T，使用了改進的triplet loss
- Variant3(TP):使用五個通道與原始的triplet loss
- Variant4(TPC):相比TP，使用了改進的triplet loss
具體結果如下：

2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss

2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss

2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
對于較大的CUHK01，對上面四個變體每個通道各多加了一個卷積層

2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
交叉驗證對 β β 進行了選擇，結果如下：

2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss

4.3.Analysis of different body parts

對于不同身體部分貢獻程度的比較：訓練了4個網絡每個網絡由full-body通道以及4個body-part的一個組成，結果如下圖：

2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss
對卷積層學習到的特征圖進行了可視化，可以看到full-body通道捕捉到了全局資訊，part-body捕捉到了局部的細節資訊

2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss

5.Conclusion

總結了本文提出的架構對于聯合學習全局與局部細節特征的作用，以及改進的triplet loss能使類内距離更近、類間距離更遠的效果
本文的方法在大多數資料集上取得了SOTA的性能
将來工作：将我們的方法應用在圖像以及視訊檢索問題上

2016 CVPR-Person Re-Identification by Multi-Channel Parts-Based CNN with Improved Triplet Loss

Motivation

Contribution

1.Introduction

2.Related Work

3.The Proposed Person Re-Id Method

3.1. The Overall Framework

3.2. Multi-Channel Parts-based CNN Model

3.3. Improved Triplet Loss Function

3.4. The Traning Algorithm

4. Experiment

4.1. Setup

4.2.Experiment Evaluations

4.3.Analysis of different body parts

5.Conclusion

繼續閱讀

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

論文閱讀筆記（三）：Research on Network Attack Effect Evaluation Based on Confrontational Perspective一. 論文簡介二. 創新點和貢獻：三. 相關領域的概述(related work)四. 作者的方案五. 主要的資訊流（approach）六. 總結

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡