天天看點

[2016,arXiv] An Enhanced Deep Feature Representation for Person Re-identificationMotivationMethodExperimentQuestions

中山大學鄭偉詩老師那邊的文章,發表在WACV,先放在arXiv上了。

Motivation

  1. 作者認為手工的一些顔色特征和 CNN 特征具有互補性,是以需要進行融合;在本文中,手工特征和 CNN 特征聯合訓練,迫使 CNN 學習到和手工特征互補的特征。
  2. CNN 應該是一個特征提取的過程,而不是像以前的 deep learning for re-id 方法中進行 pairwise matching 的過程;是以本文的 CNN 用來提取特征,matching 是用額外的 metric learning 方法。

motivation 其實比較弱,關鍵是效果上去了,互補性也隻是通過實驗證明(二者聯合起來比任意一個都好),在模型上互補性也隻是展現在梯度反傳的時候,CNN 的梯度受到手工特征的影響,但學出來的是不是互補,這點是無法保證的。

Method

如下圖所示,上面是一個傳統的 CNN 網絡結構,下面是一個手工提取特征的過程,然後将這些手工特征連接配接到一個 fc 層(buffer layer),然後與 CNN 網絡連通,共同訓練。

[2016,arXiv] An Enhanced Deep Feature Representation for Person Re-identificationMotivationMethodExperimentQuestions

方法比較簡單。

Experiment

實驗的資料庫選擇感覺有點不正常,方法也有點不正常。

用 ImageNet 初始化,然後在 Market-1501上訓練,用這個訓練好的網絡在 VIPeR、CUHK01和 PRID450s上提取特征,這三個小庫又劃分成一半訓練,一半測試,訓練集的目的是訓練 metric learning。在VIPeR、CUHK01和 PRID450s上基本都取得了所列方法最好的效果。

為什麼沒有在 Market-1501上測試呢,還有為什麼沒有 CUHK03呢?

Questions

  1. 不是 pairwise input,一張圖檔的輸入,那目标變成了 recognition?然後直接用這個特征做 re-id?這樣會好嗎?也即最後 softmax 的神經元數目是多少?

    應該是分類。Section 4.2中提到,

    We replaced the last softmax loss layer with less output nodes and continued to finetune our model on these difficult samples

    這是不是在說減少訓練中人的數目,然後再訓?

  2. 下面那條通道如何進行反傳?
    應該是 hand feature 提前計算好,相當于一個 input, 然後反傳隻進行到 buffer layer
  3. 文章最大的缺陷應該還是實驗,感覺現在有些方法可以在這幾個庫上做到很好,隻是沒測。

繼續閱讀