中山大学郑伟诗老师那边的文章,发表在WACV,先放在arXiv上了。
Motivation
- 作者认为手工的一些颜色特征和 CNN 特征具有互补性,因此需要进行融合;在本文中,手工特征和 CNN 特征联合训练,迫使 CNN 学习到和手工特征互补的特征。
- CNN 应该是一个特征提取的过程,而不是像以前的 deep learning for re-id 方法中进行 pairwise matching 的过程;因此本文的 CNN 用来提取特征,matching 是用额外的 metric learning 方法。
motivation 其实比较弱,关键是效果上去了,互补性也只是通过实验证明(二者联合起来比任意一个都好),在模型上互补性也只是体现在梯度反传的时候,CNN 的梯度受到手工特征的影响,但学出来的是不是互补,这点是无法保证的。
Method
如下图所示,上面是一个传统的 CNN 网络结构,下面是一个手工提取特征的过程,然后将这些手工特征连接到一个 fc 层(buffer layer),然后与 CNN 网络连通,共同训练。
方法比较简单。
Experiment
实验的数据库选择感觉有点不常规,方法也有点不常规。
用 ImageNet 初始化,然后在 Market-1501上训练,用这个训练好的网络在 VIPeR、CUHK01和 PRID450s上提取特征,这三个小库又划分成一半训练,一半测试,训练集的目的是训练 metric learning。在VIPeR、CUHK01和 PRID450s上基本都取得了所列方法最好的效果。
为什么没有在 Market-1501上测试呢,还有为什么没有 CUHK03呢?
Questions
- 不是 pairwise input,一张图片的输入,那目标变成了 recognition?然后直接用这个特征做 re-id?这样会好吗?也即最后 softmax 的神经元数目是多少?
应该是分类。Section 4.2中提到,
We replaced the last softmax loss layer with less output nodes and continued to finetune our model on these difficult samples
这是不是在说减少训练中人的数目,然后再训?
- 下面那条通道如何进行反传?
应该是 hand feature 提前计算好,相当于一个 input, 然后反传只进行到 buffer layer
- 文章最大的缺陷应该还是实验,感觉现在有些方法可以在这几个库上做到很好,只是没测。