中山大學鄭偉詩老師那邊的文章,發表在WACV,先放在arXiv上了。
Motivation
- 作者認為手工的一些顔色特征和 CNN 特征具有互補性,是以需要進行融合;在本文中,手工特征和 CNN 特征聯合訓練,迫使 CNN 學習到和手工特征互補的特征。
- CNN 應該是一個特征提取的過程,而不是像以前的 deep learning for re-id 方法中進行 pairwise matching 的過程;是以本文的 CNN 用來提取特征,matching 是用額外的 metric learning 方法。
motivation 其實比較弱,關鍵是效果上去了,互補性也隻是通過實驗證明(二者聯合起來比任意一個都好),在模型上互補性也隻是展現在梯度反傳的時候,CNN 的梯度受到手工特征的影響,但學出來的是不是互補,這點是無法保證的。
Method
如下圖所示,上面是一個傳統的 CNN 網絡結構,下面是一個手工提取特征的過程,然後将這些手工特征連接配接到一個 fc 層(buffer layer),然後與 CNN 網絡連通,共同訓練。
方法比較簡單。
Experiment
實驗的資料庫選擇感覺有點不正常,方法也有點不正常。
用 ImageNet 初始化,然後在 Market-1501上訓練,用這個訓練好的網絡在 VIPeR、CUHK01和 PRID450s上提取特征,這三個小庫又劃分成一半訓練,一半測試,訓練集的目的是訓練 metric learning。在VIPeR、CUHK01和 PRID450s上基本都取得了所列方法最好的效果。
為什麼沒有在 Market-1501上測試呢,還有為什麼沒有 CUHK03呢?
Questions
- 不是 pairwise input,一張圖檔的輸入,那目标變成了 recognition?然後直接用這個特征做 re-id?這樣會好嗎?也即最後 softmax 的神經元數目是多少?
應該是分類。Section 4.2中提到,
We replaced the last softmax loss layer with less output nodes and continued to finetune our model on these difficult samples
這是不是在說減少訓練中人的數目,然後再訓?
- 下面那條通道如何進行反傳?
應該是 hand feature 提前計算好,相當于一個 input, 然後反傳隻進行到 buffer layer
- 文章最大的缺陷應該還是實驗,感覺現在有些方法可以在這幾個庫上做到很好,隻是沒測。