天天看點

for根據ID去重_Person Re-ID研究綜述

for根據ID去重_Person Re-ID研究綜述

今天來分享一篇寫的很好的文章,對Person Re-ID感興趣的朋友可以一起學習

原文:基于深度學習的行人重識别研究綜述 作者:羅浩 前言:

行人重識别(Person Re-identification)也稱行人再識别,本文簡稱為ReID,是利用計算機視覺技術判斷圖像或者視訊序列中是否存在特定行人的技術。廣泛被認為是一個圖像檢索的子問題。給定一個監控行人圖像,檢索跨裝置下的該行人圖像。

在監控視訊中,由于相機分辨率和拍攝角度的緣故,通常無法得到品質非常高的人臉圖檔。當人臉識别失效的情況下,ReID就成為了一個非常重要的替代品技術。ReID有一個非常重要的特性就是跨攝像頭,是以學術論文裡評價性能的時候,是要檢索出不同攝像頭下的相同行人圖檔。ReID已經在學術界研究多年,但直到最近幾年随着深度學習的發展,才取得了非常巨大的突破。是以本文介紹一些近幾年基于深度學習的ReID工作,由于精力有限并不能涵蓋所有工作,隻能介紹幾篇代表性的工作。按照個人的習慣,我把這些方法分為以下幾類:

  1. 基于表征學習的ReID方法
  2. 基于度量學習的ReID方法
  3. 基于局部特征的ReID方法
  4. 基于視訊序列的ReID方法
  5. 基于GAN造圖的ReID方法

1、基于表征學習的ReID方法

基于表征學習(Representation learning)的方法是一類非常常用的行人重識别方法[1-4]。這主要得益于深度學習,尤其是卷積神經網絡(Convolutional neural network, CNN)的快速發展。由于CNN可以自動從原始的圖像資料中根據任務需求自動提取出表征特征(Representation),是以有些研究者把行人重識别問題看做分類(Classification/Identification)問題或者驗證(Verification)問題:(1)分類問題是指利用行人的ID或者屬性等作為訓練标簽來訓練模型;(2)驗證問題是指輸入一對(兩張)行人圖檔,讓網絡來學習這兩張圖檔是否屬于同一個行人。

論文[1]利用Classification/Identification loss和verification loss來訓練網絡,其網絡示意圖如下圖所示。網絡輸入為若幹對行人圖檔,包括分類子網絡(Classification Subnet)和驗證子網絡(Verification Subnet)。分類子網絡對圖檔進行ID預測,根據預測的ID來計算分類誤差損失。驗證子網絡融合兩張圖檔的特征,判斷這兩張圖檔是否屬于同一個行人,該子網絡實質上等于一個二分類網絡。經過足夠資料的訓練,再次輸入一張測試圖檔,網絡将自動提取出一個特征,這個特征用于行人重識别任務。

for根據ID去重_Person Re-ID研究綜述

但是也有論文認為光靠行人的ID資訊不足以學習出一個泛化能力足夠強的模型。在這些工作中,它們額外标注了行人圖檔的屬性特征,例如性别、頭發、衣着等屬性。通過引入行人屬性标簽,模型不但要準确地預測出行人ID,還要預測出各項正确的行人屬性,這大大增加了模型的泛化能力,多數論文也顯示這種方法是有效的。下圖是其中一個示例[2],從圖中可以看出,網絡輸出的特征不僅用于預測行人的ID資訊,還用于預測各項行人屬性。通過結合ID損失和屬性損失能夠提高網絡的泛化能力。

for根據ID去重_Person Re-ID研究綜述

如今依然有大量工作是基于表征學習,表征學習也成為了ReID領域的一個非常重要的baseline,并且表征學習的方法比較魯棒,訓練比較穩定,結果也比較容易複現。但是個人的實際經驗感覺表征學習容易在資料集的domain上過拟合,并且當訓練ID增加到一定程度的時候會顯得比較乏力。

2、基于度量學習的ReID方法

度量學習(Metric learning)是廣泛用于圖像檢索領域的一種方法。不同于表征學習,度量學習旨在通過網絡學習出兩張圖檔的相似度。在行人重識别問題上,具體為同一行人的不同圖檔相似度大于不同行人的不同圖檔。最後網絡的損失函數使得相同行人圖檔(正樣本對)的距離盡可能小,不同行人圖檔(負樣本對)的距離盡可能大。常用的度量學習損失方法有對比損失(Contrastive loss)[5]、三元組損失(Triplet loss)[6-8]、 四元組損失(Quadruplet loss)[9]、難樣本采樣三元組損失(Triplet hard loss with batch hard mining, TriHard loss)[10]、邊界挖掘損失(Margin sample mining loss, MSML)[11]。首先,假如有兩張輸入圖檔

for根據ID去重_Person Re-ID研究綜述

for根據ID去重_Person Re-ID研究綜述

,通過網絡的前饋我們可以得到它們歸一化後的特征向量

for根據ID去重_Person Re-ID研究綜述

for根據ID去重_Person Re-ID研究綜述

。我們定義這兩張圖檔特征向量的歐式距離為:

for根據ID去重_Person Re-ID研究綜述
(1)對比損失(Contrastive loss)
for根據ID去重_Person Re-ID研究綜述

對比損失用于訓練孿生網絡(Siamese network),其結構圖如上圖所示。孿生網絡的輸入為一對(兩張)圖檔

for根據ID去重_Person Re-ID研究綜述

for根據ID去重_Person Re-ID研究綜述

,這兩張圖檔可以為同一行人,也可以為不同行人。每一對訓練圖檔都有一個标簽

for根據ID去重_Person Re-ID研究綜述

,其中

for根據ID去重_Person Re-ID研究綜述

表示兩張圖檔屬于同一個行人(正樣本對),反之

for根據ID去重_Person Re-ID研究綜述

表示它們屬于不同行人(負樣本對)。之後,對比損失函數寫作:

for根據ID去重_Person Re-ID研究綜述

其中

for根據ID去重_Person Re-ID研究綜述

表示

for根據ID去重_Person Re-ID研究綜述

for根據ID去重_Person Re-ID研究綜述

是根據實際需求設計的門檻值參數。為了最小化損失函數,當網絡輸入一對正樣本對,

for根據ID去重_Person Re-ID研究綜述

會逐漸變小,即相同ID的行人圖檔會逐漸在特征空間形成聚類。反之,當網絡輸入一對負樣本對時,

for根據ID去重_Person Re-ID研究綜述

會逐漸變大直到超過設定的

for根據ID去重_Person Re-ID研究綜述

。通過最小化

for根據ID去重_Person Re-ID研究綜述

,最後可以使得正樣本對之間的距離逐漸變小,負樣本對之間的距離逐漸變大,進而滿足行人重識别任務的需要。

(2)三元組損失(Triplet loss)

三元組損失是一種被廣泛應用的度量學習損失,之後的大量度量學習方法也是基于三元組損失演變而來。顧名思義,三元組損失需要三張輸入圖檔。和對比損失不同,一個輸入的三元組(Triplet)包括一對正樣本對和一對負樣本對。三張圖檔分别命名為固定圖檔(Anchor)

for根據ID去重_Person Re-ID研究綜述

,正樣本圖檔(Positive)

for根據ID去重_Person Re-ID研究綜述

和負樣本圖檔(Negative)

for根據ID去重_Person Re-ID研究綜述

。圖檔

for根據ID去重_Person Re-ID研究綜述

和圖檔

for根據ID去重_Person Re-ID研究綜述

為一對正樣本對,圖檔

for根據ID去重_Person Re-ID研究綜述

和圖檔

for根據ID去重_Person Re-ID研究綜述

為一對負樣本對。則三元組損失表示為:

for根據ID去重_Person Re-ID研究綜述

如下圖所示,三元組可以拉近正樣本對之間的距離,推開負樣本對之間的距離,最後使得相同ID的行人圖檔在特征空間裡形成聚類,達到行人重識别的目的。

for根據ID去重_Person Re-ID研究綜述

論文[8]認為原版的Triplet loss隻考慮正負樣本對之間的相對距離,而并沒有考慮正樣本對之間的絕對距離,為此提出改進三元組損失(Improved triplet loss):

for根據ID去重_Person Re-ID研究綜述

公式添加

for根據ID去重_Person Re-ID研究綜述

項,保證網絡不僅能夠在特征空間把正負樣本推開,也能保證正樣本對之間的距離很近。

(3) 四元組損失(Quadruplet loss)
for根據ID去重_Person Re-ID研究綜述

四元組損失是三元組損失的另一個改進版本。顧名思義,四元組(Quadruplet)需要四張輸入圖檔,和三元組不同的是多了一張負樣本圖檔。即四張圖檔為固定圖檔(Anchor)

for根據ID去重_Person Re-ID研究綜述

,正樣本圖檔(Positive)

for根據ID去重_Person Re-ID研究綜述

,負樣本圖檔1(Negative1)

for根據ID去重_Person Re-ID研究綜述

和負樣本圖檔2(Negative2)

for根據ID去重_Person Re-ID研究綜述

。其中

for根據ID去重_Person Re-ID研究綜述

for根據ID去重_Person Re-ID研究綜述

是兩張不同行人ID的圖檔,其結構如上圖所示。則四元組損失表示為:

for根據ID去重_Person Re-ID研究綜述

其中

for根據ID去重_Person Re-ID研究綜述

for根據ID去重_Person Re-ID研究綜述

是手動設定的正常數,通常設定

for根據ID去重_Person Re-ID研究綜述

小于

for根據ID去重_Person Re-ID研究綜述

,前一項稱為強推動,後一項稱為弱推動。相比于三元組損失隻考慮正負樣本間的相對距離,四元組添加的第二項不共享ID,是以考慮的是正負樣本間的絕對距離。是以,四元組損失通常能讓模型學習到更好的表征。

(4)難樣本采樣三元組損失(Triplet loss with batch hard mining, TriHard loss)

難樣采樣三元組損失(本文之後用TriHard損失表示)是三元組損失的改進版。傳統的三元組随機從訓練資料中抽樣三張圖檔,這樣的做法雖然比較簡單,但是抽樣出來的大部分都是簡單易區分的樣本對。如果大量訓練的樣本對都是簡單的樣本對,那麼這是不利于網絡學習到更好的表征。大量論文發現用更難的樣本去訓練網絡能夠提高網絡的泛化能力,而采樣難樣本對的方法很多。論文[10]提出了一種基于訓練批量(Batch)的線上難樣本采樣方法——TriHard Loss。

TriHard損失的核心思想是:對于每一個訓練batch,随機挑選

for根據ID去重_Person Re-ID研究綜述

個ID的行人,每個行人随機挑選

for根據ID去重_Person Re-ID研究綜述

張不同的圖檔,即一個batch含有

for根據ID去重_Person Re-ID研究綜述

張圖檔。之後對于batch中的每一張圖檔

for根據ID去重_Person Re-ID研究綜述

,我們可以挑選一個最難的正樣本和一個最難的負樣本和

for根據ID去重_Person Re-ID研究綜述

組成一個三元組。

首先我們定義和

for根據ID去重_Person Re-ID研究綜述

為相同ID的圖檔集為

for根據ID去重_Person Re-ID研究綜述

,剩下不同ID的圖檔圖檔集為

for根據ID去重_Person Re-ID研究綜述

,則TriHard損失表示為:

for根據ID去重_Person Re-ID研究綜述

其中

for根據ID去重_Person Re-ID研究綜述

是人為設定的門檻值參數。TriHard損失會計算

for根據ID去重_Person Re-ID研究綜述

和batch中的每一張圖檔在特征空間的歐式距離,然後選出與

for根據ID去重_Person Re-ID研究綜述

距離最遠(最不像)的正樣本

for根據ID去重_Person Re-ID研究綜述

和距離最近(最像)的負樣本

for根據ID去重_Person Re-ID研究綜述

來計算三元組損失。通常TriHard損失效果比傳統的三元組損失要好。

(5)邊界挖掘損失(Margin sample mining loss, MSML)

邊界樣本挖掘損失(MSML)是一種引入難樣本采樣思想的度量學習方法。三元組損失隻考慮了正負樣本對之間的相對距離。為了引入正負樣本對之間的絕對距離,四元組損失加入一張負樣本組成了四元組

for根據ID去重_Person Re-ID研究綜述

。四元組損失也定義為:

for根據ID去重_Person Re-ID研究綜述

假如我們忽視參數

for根據ID去重_Person Re-ID研究綜述

for根據ID去重_Person Re-ID研究綜述

的影響,我們可以用一種更加通用的形式表示四元組損失:

for根據ID去重_Person Re-ID研究綜述

其中

for根據ID去重_Person Re-ID研究綜述

for根據ID去重_Person Re-ID研究綜述

是一對負樣本對,

for根據ID去重_Person Re-ID研究綜述

for根據ID去重_Person Re-ID研究綜述

既可以是一對正樣本對也可以是一對負樣本對。之後把TriHard loss的難樣本挖掘思想引入進來,便可以得到:

for根據ID去重_Person Re-ID研究綜述

其中

for根據ID去重_Person Re-ID研究綜述

均是batch中的圖檔,

for根據ID去重_Person Re-ID研究綜述

是batch中最不像的正樣本對,

for根據ID去重_Person Re-ID研究綜述

是batch 中最像的負樣本對,

for根據ID去重_Person Re-ID研究綜述

皆可以是正樣本對也可以是負樣本對。概括而言TriHard損失是針對batch中的每一張圖檔都挑選了一個三元組,而MSML損失隻挑選出最難的一個正樣本對和最難的一個負樣本對計算損失。是以MSML是比TriHard更難的一種難樣本采樣,此外

for根據ID去重_Person Re-ID研究綜述

可以看作是正樣本對距離的上界,

for根據ID去重_Person Re-ID研究綜述

可以看作是負樣本對的下界。MSML是為了把正負樣本對的邊界給推開,是以命名為邊界樣本挖掘損失。總的概括,MSML是同時兼顧相對距離和絕對距離并引入了難樣本采樣思想的度量學習方法。其演變思想如下圖:

for根據ID去重_Person Re-ID研究綜述
(6)各種loss的性能對比

在論文[11]之中,對上面提到的主要損失函數在盡可能公平的實驗的條件下進行性能對比,實驗結果如下表所示。作為一個參考

for根據ID去重_Person Re-ID研究綜述

3、基于局部特征的ReID方法

早期的ReID研究大家還主要關注點在全局的global feature上,就是用整圖得到一個特征向量進行圖像檢索。但是後來大家逐漸發現全局特征遇到了瓶頸,于是開始漸漸研究起局部的local feature。常用的提取局部特征的思路主要有圖像切塊、利用骨架關鍵點定位以及姿态矯正等等。

(1)圖檔切塊是一種很常見的提取局部特征方式[12]。如下圖所示,圖檔被垂直等分為若幹份,因為垂直切割更符合我們對人體識别的直覺感受,是以行人重識别領域很少用到水準切割。

for根據ID去重_Person Re-ID研究綜述

之後,被分割好的若幹塊圖像塊按照順序送到一個長短時記憶網絡(Long short term memory network, LSTM),最後的特征融合了所有圖像塊的局部特征。但是這種缺點在于對圖像對齊的要求比較高,如果兩幅圖像沒有上下對齊,那麼很可能出現頭和上身對比的現象,反而使得模型判斷錯誤。

(2)為了解決圖像不對齊情況下手動圖像切片失效的問題,一些論文利用一些先驗知識先将行人進行對齊,這些先驗知識主要是預訓練的人體姿态(Pose)和骨架關鍵點(Skeleton) 模型。論文[13]先用姿态估計的模型估計出行人的關鍵點,然後用仿射變換使得相同的關鍵點對齊。如下圖所示,一個行人通常被分為14個關鍵點,這14個關鍵點把人體結果分為若幹個區域。為了提取不同尺度上的局部特征,作者設定了三個不同的PoseBox組合。之後這三個PoseBox矯正後的圖檔和原始為矯正的圖檔一起送到網絡裡去提取特征,這個特征包含了全局資訊和局部資訊。特别提出,這個仿射變換可以在進入網絡之前的預進行中進行,也可以在輸入到網絡後進行。如果是後者的話需要需要對仿射變換做一個改進,因為傳統的仿射變化是不可導的。為了使得網絡可以訓練,需要引入可導的近似放射變化,在本文中不贅述相關知識。

for根據ID去重_Person Re-ID研究綜述

(3)CVPR2017的工作Spindle Net[14]也利用了14個人體關鍵點來提取局部特征。和論文[12]不同的是,Spindle Net并沒有用仿射變換來對齊局部圖像區域,而是直接利用這些關鍵點來摳出感興趣區域(Region of interest, ROI)。Spindle Net網絡如下圖所示,首先通過骨架關鍵點提取的網絡提取14個人體關鍵點,之後利用這些關鍵點提取7個人體結構ROI。網絡中所有提取特征的CNN(橙色表示)參數都是共享的,這個CNN分成了線性的三個子網絡FEN-C1、FEN-C2、FEN-C3。對于輸入的一張行人圖檔,有一個預訓練好的骨架關鍵點提取CNN(藍色表示)來獲得14個人體關鍵點,進而得到7個ROI區域,其中包括三個大區域(頭、上身、下身)和四個四肢小區域。這7個ROI區域和原始圖檔進入同一個CNN網絡提取特征。原始圖檔經過完整的CNN得到一個全局特征。三個大區域經過FEN-C2和FEN-C3子網絡得到三個局部特征。四個四肢區域經過FEN-C3子網絡得到四個局部特征。之後這8個特征按照圖示的方式在不同的尺度進行聯結,最終得到一個融合全局特征和多個尺度局部特征的行人重識别特征。

for根據ID去重_Person Re-ID研究綜述

(4)論文[15]提出了一種全局-局部對齊特征描述子(Global-Local-Alignment Descriptor, GLAD),來解決行人姿态變化的問題。與Spindle Net類似,GLAD利用提取的人體關鍵點把圖檔分為頭部、上身和下身三個部分。之後将整圖和三個局部圖檔一起輸入到一個參數共享CNN網絡中,最後提取的特征融合了全局和局部的特征。為了适應不同分辨率大小的圖檔輸入,網絡利用全局平均池化(Global average pooling, GAP)來提取各自的特征。和Spindle Net略微不同的是四個輸入圖檔各自計算對應的損失,而不是融合為一個特征計算一個總的損失。

for根據ID去重_Person Re-ID研究綜述

(5)以上所有的局部特征對齊方法都需要一個額外的骨架關鍵點或者姿态估計的模型。而訓練一個可以達到實用程度的模型需要收集足夠多的訓練資料,這個代價是非常大的。為了解決以上問題,AlignedReID[16]提出基于SP距離的自動對齊模型,在不需要額外資訊的情況下來自動對齊局部特征。而采用的方法就是動态對齊算法,或者也叫最短路徑距離。這個最短距離就是自動計算出的local distance。

for根據ID去重_Person Re-ID研究綜述

這個local distance可以和任何global distance的方法結合起來,論文[15]選擇以TriHard loss作為baseline實驗,最後整個網絡的結構如下圖所示,具體細節可以去看原論文。

for根據ID去重_Person Re-ID研究綜述

4、基于視訊序列的ReID方法

目前單幀的ReID研究還是主流,因為相對來說資料集比較小,哪怕一個單GPU的PC做一次實驗也不會花太長時間。但是通常單幀圖像的資訊是有限的,是以有很多工作集中在利用視訊序列來進行行人重識别方法的研究[17-24]。基于視訊序列的方法最主要的不同點就是這類方法不僅考慮了圖像的内容資訊,還考慮了幀與幀之間的運動資訊等。

for根據ID去重_Person Re-ID研究綜述

基于單幀圖像的方法主要思想是利用CNN來提取圖像的空間特征,而基于視訊序列的方法主要思想是利用CNN 來提取空間特征的同時利用遞歸循環網絡(Recurrent neural networks, RNN)來提取時序特征。上圖是非常典型的思路,網絡輸入為圖像序列。每張圖像都經過一個共享的CNN提取出圖像空間内容特征,之後這些特征向量被輸入到一個RNN網絡去提取最終的特征。最終的特征融合了單幀圖像的内容特征和幀與幀之間的運動特征。而這個特征用于代替前面單幀方法的圖像特征來訓練網絡。

視訊序列類的代表方法之一是累計運動背景網絡(Accumulative motion context network, AMOC)[23]。AMOC輸入的包括原始的圖像序列和提取的光流序列。通常提取光流資訊需要用到傳統的光流提取算法,但是這些算法計算耗時,并且無法與深度學習網絡相容。為了能夠得到一個自動提取光流的網絡,作者首先訓練了一個運動資訊網絡(Motion network, Moti Nets)。這個運動網絡輸入為原始的圖像序列,标簽為傳統方法提取的光流序列。如下圖所示,原始的圖像序列顯示在第一排,提取的光流序列顯示在第二排。網絡有三個光流預測的輸出,分别為Pred1,Pred2,Pred3,這三個輸出能夠預測三個不同尺度的光流圖。最後網絡融合了三個尺度上的光流預測輸出來得到最終光流圖,預測的光流序列在第三排顯示。通過最小化預測光流圖和提取光流圖的誤差,網絡能夠提取出較準确的運動特征。

for根據ID去重_Person Re-ID研究綜述

AMOC的核心思想在于網絡除了要提取序列圖像的特征,還要提取運動光流的運動特征,其網絡結構圖如下圖所示。AMOC擁有空間資訊網絡(Spatial network, Spat Nets)和運動資訊網絡兩個子網絡。圖像序列的每一幀圖像都被輸入到Spat Nets來提取圖像的全局内容特征。而相鄰的兩幀将會送到Moti Nets來提取光流圖特征。之後空間特征和光流特征融合後輸入到一個RNN來提取時序特征。通過AMOC網絡,每個圖像序列都能被提取出一個融合了内容資訊、運動資訊的特征。網絡采用了分類損失和對比損失來訓練模型。融合了運動資訊的序列圖像特征能夠提高行人重識别的準确度。

for根據ID去重_Person Re-ID研究綜述

論文[24]從另外一個角度展示了多幀序列彌補單幀資訊不足的作用,目前大部分video based ReID方法還是不管三七二十一的把序列資訊輸給網絡,讓網絡去自己學有用的資訊,并沒有直覺的去解釋為什麼多幀資訊有用。而論文[24]則很明确地指出當單幀圖像遇到遮擋等情況的時候,可以用多幀的其他資訊來彌補,直接誘導網絡去對圖檔進行一個品質判斷,降低品質差的幀的重要度。

for根據ID去重_Person Re-ID研究綜述

如上圖,文章認為在遮擋較嚴重的情況下,如果用一般的pooling會造成attention map變差,遮擋區域的特征會丢失很多。而利用論文的方法每幀進行一個品質判斷,就可以着重考慮那些比較完整的幾幀,使得attention map比較完整。而關鍵的實作就是利用一個pose estimation的網絡,論文叫做landmark detector。當landmark不完整的時候就證明存在遮擋,則圖檔品質就會變差。之後pose feature map和global feature map都同時輸入到網絡,讓網絡對每幀進行一個權重判斷,給高品質幀打上高權重,然後對feature map進行一個線性疊加。思路比較簡單但是還是比較讓人信服的。

for根據ID去重_Person Re-ID研究綜述

5、基于GAN造圖的ReID方法

ReID有一個非常大的問題就是資料擷取困難,截止CVPR18 deadline截稿之前,最大的ReID資料集也就小幾千個ID,幾萬張圖檔(序列假定隻算一張)。是以在ICCV17 GAN造圖做ReID挖了第一個坑之後,就有大量GAN的工作湧現,尤其是在CVPR18 deadline截稿之後arxiv出現了好幾篇很好的paper。

論文[25]是第一篇用GAN做ReID的文章,發表在ICCV17會議,雖然論文比較簡單,但是作為挖坑鼻祖引出一系列很好的工作。如下圖,這篇論文生成的圖像品質還不是很高,甚至可以用很慘來形容。另外一個問題就是由于圖像是随機生成的,也就是說是沒有可以标注label可以用。為了解決這個問題,論文提出一個标簽平滑的方法。實際操作也很簡單,就是把label vector每一個元素的值都取一樣,滿足加起來為1。反正也看不出屬于哪個人,那就一碗水端平。生成的圖像作為訓練資料加入到訓練之中,由于當時的baseline還不像現在這麼高,是以效果還挺明顯的,至少資料量多了過拟合能避免很多。

for根據ID去重_Person Re-ID研究綜述

論文[26]是上一篇論文的加強版,來自同一個課題組。前一篇的GAN造圖還是随機的,在這一篇中變成了可以控制的生成圖。ReID有個問題就是不同的攝像頭存在着bias,這個bias可能來自光線、角度等各個因素。為了克服這個問題,論文使用GAN将一個攝像頭的圖檔transfer到另外一個攝像頭。在GAN方面依然還是比較正常的應用,和前作不同的是這篇論文生成的圖是可以控制,也就是說ID是明确的。于是标簽平滑也做了改進,公式如下:

for根據ID去重_Person Re-ID研究綜述

其中

for根據ID去重_Person Re-ID研究綜述

是ID的數量。

for根據ID去重_Person Re-ID研究綜述

是手動設定的平滑參數,當

for根據ID去重_Person Re-ID研究綜述

時就是正常的one-hot向量,不過由于是造的圖,是以希望label不要這麼hard,是以加入了一個平滑參數,實驗表明這樣做效果不錯。最終整體的網絡架構如下圖:

for根據ID去重_Person Re-ID研究綜述

除了攝像頭的bias,ReID還有個問題就是資料集存在bias,這個bias很大一部分原因就是環境造成的。為了克服這個bias,論文[27]使用GAN把一個資料集的行人遷移到另外一個資料集。為了實作這個遷移,GAN的loss稍微設計了一下,一個是前景的絕對誤差loss,一個是正常的判别器loss。判别器loss是用來判斷生成的圖屬于哪個域,前景的loss是為了保證行人前景盡可能逼真不變。這個前景mask使用PSPnet來得到的,效果如下圖。論文的另外一個貢獻就是提出了一個MSMT17資料集,是個挺大的資料集,希望能夠早日public出來。

for根據ID去重_Person Re-ID研究綜述

ReID的其中一個難點就是姿态的不同,為了克服這個問題論文[28]使用GAN造出了一系列标準的姿态圖檔。論文總共提取了8個pose,這個8個pose基本涵蓋了各個角度。每一張圖檔都生成這樣标準的8個pose,那麼pose不同的問題就解決。最終用這些圖檔的feature進行一個average pooling得到最終的feature,這個feature融合了各個pose的資訊,很好地解決的pose bias問題。無論從生成圖還是從實驗的結果來看,這個工作都是很不錯的。這個工作把single query做成了multi query,但是你沒法反駁,因為所有的圖都是GAN生成的。除了生成這些圖需要額外的時間開銷以外,并沒有利用額外的資料資訊。當然這個工作也需要一個預訓練的pose estimation網絡來進行pose提取。

for根據ID去重_Person Re-ID研究綜述

總的來說,GAN造圖都是為了從某個角度上解決ReID的困難,缺啥就讓GAN來補啥,不得不說GAN還真是一個強大的東西。

參考文獻

[1] Mengyue Geng, Yaowei Wang, Tao Xiang, Yonghong Tian. Deep transfer learning for person reidentification[J]. arXiv preprint arXiv:1611.05244, 2016.

[2] Yutian Lin, Liang Zheng, Zhedong Zheng, YuWu, Yi Yang. Improving person re-identification by attribute and identity learning[J]. arXiv preprint arXiv:1703.07220, 2017.

[3] Liang Zheng, Yi Yang, Alexander G Hauptmann. Person re-identification: Past, present and future[J]. arXiv preprint arXiv:1610.02984, 2016.

[4] Tetsu Matsukawa, Einoshin Suzuki. Person re-identification using cnn features learned from combination of attributes[C]//Pattern Recognition (ICPR), 2016 23rd International Conference on. IEEE, 2016:2428–2433.

[5] Rahul Rama Varior, Mrinal Haloi, Gang Wang. Gated siamese convolutional neural network architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:791-808.

[6] Florian Schroff, Dmitry Kalenichenko, James Philbin. Facenet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:815-823.

[7] Hao Liu, Jiashi Feng, Meibin Qi, Jianguo Jiang, Shuicheng Yan. End-to-end comparative attention networks for person re-identification[J]. IEEE Transactions on Image Processing, 2017.

[8] De Cheng, Yihong Gong, Sanping Zhou, Jinjun Wang, Nanning Zheng. Person re-identification by multichannel parts-based cnn with improved triplet loss function[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1335-1344.

[9] Weihua Chen, Xiaotang Chen, Jianguo Zhang, Kaiqi Huang. Beyond triplet loss: a deep quadruplet network for person re-identification[J]. arXiv preprint arXiv:1704.01719, 2017.

[10] Alexander Hermans, Lucas Beyer, Bastian Leibe. In defense of the triplet loss for person reidentification[J]. arXiv preprint arXiv:1703.07737, 2017

[11] Xiao Q, Luo H, Zhang C. Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification[J]. 2017.

[12] Rahul Rama Varior, Bing Shuai, Jiwen Lu, Dong Xu, Gang Wang. A siamese long short-term memory architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:135–153.

[13] Liang Zheng, Yujia Huang, Huchuan Lu, Yi Yang. Pose invariant embedding for deep person reidentification[J]. arXiv preprint arXiv:1701.07732, 2017.

[14] Haiyu Zhao, Maoqing Tian, Shuyang Sun, Jing Shao, Junjie Yan, Shuai Yi, Xiaogang Wang, Xiaoou Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion[C]. CVPR, 2017.

[15] Longhui Wei, Shiliang Zhang, Hantao Yao, Wen Gao, Qi Tian. Glad: Global-local-alignment descriptor for pedestrian retrieval[J]. arXiv preprint arXiv:1709.04329, 2017.

[16] Zhang, X., Luo, H., Fan, X., Xiang, W., Sun, Y., Xiao, Q., ... & Sun, J. (2017). AlignedReID: Surpassing Human-Level Performance in Person Re-Identification. arXiv preprint arXiv:1711.08184.

[17] Taiqing Wang, Shaogang Gong, Xiatian Zhu, Shengjin Wang. Person re-identification by discriminative selection in video ranking[J]. IEEE transactions on pattern analysis and machine intelligence, 2016.38(12):2501–2514.

[18] Dongyu Zhang, Wenxi Wu, Hui Cheng, Ruimao Zhang, Zhenjiang Dong, Zhaoquan Cai. Image-to-video person re-identification with temporally memorized similarity learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017.

[19] Jinjie You, Ancong Wu, Xiang Li, Wei-Shi Zheng. Top-push video-based person reidentification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:1345–1353.

[20] Xiaolong Ma, Xiatian Zhu, Shaogang Gong, Xudong Xie, Jianming Hu, Kin-Man Lam, Yisheng Zhong. Person re-identification by unsupervised video matching[J]. Pattern Recognition, 2017. 65:197–210.

[21] Niall McLaughlin, Jesus Martinez del Rincon, Paul Miller. Recurrent convolutional network for videobased person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1325–1334.

[22] Rui Zhao, Wanli Oyang, Xiaogang Wang. Person re-identification by saliency learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2017. 39(2):356–370.

[23] Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang, Shuicheng Yan, Jiashi Feng. Video based person re-identification with accumulative motion context[J]. arXiv preprint arXiv:1701.00193,2017.

[24] Song G, Leng B, Liu Y, et al. Region-based Quality Estimation Network for Large-scale Person Re-identification[J]. arXiv preprint arXiv:1711.08766, 2017.

[25] Zheng Z, Zheng L, Yang Y. Unlabeled samples generated by gan improve the person re-identification baseline in vitro[J]. arXiv preprint arXiv:1701.07717, 2017.

[26] Zhong Z, Zheng L, Zheng Z, et al. Camera Style Adaptation for Person Re-identification[J]. arXiv preprint arXiv:1711.10295, 2017.

[27] Wei L, Zhang S, Gao W, et al. Person Transfer GAN to Bridge Domain Gap for Person Re-Identification[J]. arXiv preprint arXiv:1711.08565, 2017.

[28] Qian X, Fu Y, Wang W, et al. Pose-Normalized Image Generation for Person Re-identification[J]. arXiv preprint arXiv:1712.02225, 2017.