天天看点

[2016,arXiv] An Enhanced Deep Feature Representation for Person Re-identificationMotivationMethodExperimentQuestions

中山大学郑伟诗老师那边的文章,发表在WACV,先放在arXiv上了。

Motivation

  1. 作者认为手工的一些颜色特征和 CNN 特征具有互补性,因此需要进行融合;在本文中,手工特征和 CNN 特征联合训练,迫使 CNN 学习到和手工特征互补的特征。
  2. CNN 应该是一个特征提取的过程,而不是像以前的 deep learning for re-id 方法中进行 pairwise matching 的过程;因此本文的 CNN 用来提取特征,matching 是用额外的 metric learning 方法。

motivation 其实比较弱,关键是效果上去了,互补性也只是通过实验证明(二者联合起来比任意一个都好),在模型上互补性也只是体现在梯度反传的时候,CNN 的梯度受到手工特征的影响,但学出来的是不是互补,这点是无法保证的。

Method

如下图所示,上面是一个传统的 CNN 网络结构,下面是一个手工提取特征的过程,然后将这些手工特征连接到一个 fc 层(buffer layer),然后与 CNN 网络连通,共同训练。

[2016,arXiv] An Enhanced Deep Feature Representation for Person Re-identificationMotivationMethodExperimentQuestions

方法比较简单。

Experiment

实验的数据库选择感觉有点不常规,方法也有点不常规。

用 ImageNet 初始化,然后在 Market-1501上训练,用这个训练好的网络在 VIPeR、CUHK01和 PRID450s上提取特征,这三个小库又划分成一半训练,一半测试,训练集的目的是训练 metric learning。在VIPeR、CUHK01和 PRID450s上基本都取得了所列方法最好的效果。

为什么没有在 Market-1501上测试呢,还有为什么没有 CUHK03呢?

Questions

  1. 不是 pairwise input,一张图片的输入,那目标变成了 recognition?然后直接用这个特征做 re-id?这样会好吗?也即最后 softmax 的神经元数目是多少?

    应该是分类。Section 4.2中提到,

    We replaced the last softmax loss layer with less output nodes and continued to finetune our model on these difficult samples

    这是不是在说减少训练中人的数目,然后再训?

  2. 下面那条通道如何进行反传?
    应该是 hand feature 提前计算好,相当于一个 input, 然后反传只进行到 buffer layer
  3. 文章最大的缺陷应该还是实验,感觉现在有些方法可以在这几个库上做到很好,只是没测。

继续阅读