Paper:https://arxiv.org/abs/1911.09318v2
Code:https://github.com/cvlab-yonsei/projects/tree/master/RRID/code
摘要:Re-ID旨在从一组相机网阵中捕获的图像中检索相关人员图像的任务。最近的Re-ID方法表明,利用描述身体部位的局部特征,加上行人图像本身的全局特征,即使在缺少身体部位的情况下,也能提供健壮的特征表示。然而,直接使用个体的局部特征,而不考虑身体各部分之间的关系,混淆了在相应部分具有相似属性的不同ID。为了解决此问题,我们为行人Re-ID提出了新的关系网略,它考虑了身体各个部分与其他部分之间的关系。我们的模型可使一个单独的部件级特征也包含身体其他部分的信息,从而使它更具有识别力。我们还介绍了一种全局对比池化方法(GCP)来获得行人图像的全局特征。我们提出通过GCP使用对比特征补充传统最大和平均池化方法。在三个公开数据集上展示了我们模型的有效性。
知识点解析:
a):概述:得到一张行人图像的特征图(C*H*W)。将得到的特征图水平分割成6网格。然后对每个特征图应用GMP,得到size为1*1*C的局部层次的特征图。我们将特征图送进两个模块中,以提取新的局部和全局行人表示:One vs rest模块和GCP。第一个模块通过考虑身体各部分与其余部分之间的关系,使得每个局部层次的特征更具有辨别力,并输出1*1*c的局部关系特征。第二个模块提供一个1*1*c的全局对比特征,表示行人图像本身。我们沿着通道维将全局对比和局部关系特征连接起来,并使用1*1*7c的特征作为Re-ID的行人表示。我们使用交叉熵和三元损失来训练我们的模型,其中三元组为anchor、positive和negative的行人图像。在测试时,我们提取行人图像的特征,并计算他们之间的欧式距离来确定行人的ID。
b):Relation networks for part-based reID:1):局部层次特征:我们利用在ImageNet预训练的ResNet-50作为主干网络,从输入的图像中提取初始特征图。具体来说,根据PCB的工作,我们将ResNet-50的GAP和全连接去掉,并将最后一个卷积层的stride设置为1。类似于其他基于局部特征的Re-ID方法,我们将初始特征图分成C*H/6*W的水平网格,对每个网格应用GMP,得到1*1*C的局部水平特征。2):One VS rest关系模块:从水平网格中提取局部层次的特征,可以隐式地利用身体的各个部分来表示不同的人。现有的Re-ID方法将这些局部特征独立地用于行人检索。考虑到行人图像之间的粗糙的几何对应,他们以特定的顺序将所有局部特征链接起来。虽然此结构化的行人特征可以对几何变化和遮挡,但是他们没有考虑身体部分之间的关系。也就是说,各个部分是孤立的,不与其他部分通信,这就分散了计算不同ID之间在相应部分中具有相似属性的相似度。为了缓解这个问题,我们提出利用身体各部分之间的关系来表示行人。具体来说,我们引入一个新的关系网络(图2),它利用身体部分的one VS rest关系,使得每个局部层次的特征都可以包含相应部分本身和其他身体部分的信息。具体来说,我们用
(i=1...6)表示每个局部层次的特征,大小为1*1*C。我们对所有局部层次的特征应用同一个平均池化,除了特征
,其他部分的信息按如下方式聚合:
。然后我们分别在
和
之后增加一个1*1的卷积层,分别得到大小为1*1*c的特征图
和
。关系网络通过连接
和
,为每一个
输出一个局部关系特征
。我们在图2中描述了一个提取局部关系特征
的例子。在这里,我们假设
包含它自身的信息
和身体其他部分的信息。因此,我们使用一个跳转连接来传输
和
到
的相关信息:
。其中,
是包含1*1卷积、BN和ReLU层的子网络。T表示特征的串联。
支持局部层次的特征
,增强了对遮挡的识别能力和鲁棒性。我们利用特征
之间所有成对关系,但这需要大量的计算成本,并大幅增加特征的维度。相比之下,我们的one VS rest关系模块在线性时间内计算特征
,并保持紧凑的特征表示。
c):GCP:为了表示一个完整的行人图像,以前的方式要么使用GAP,要么使用GMP,或者两者都有。GAP覆盖了行人图像的整个身体部分,但是容易被背景杂波和遮挡分散注意力。GMP克服了这一问题,它在丢弃背景杂波的同时,将对Re-ID有用的最具有判别性特征聚集起来。但是,这并不包含来自整个身体部分的信息。一种利用GAP和GMP的混合方法可能表现得更好,但它也受到背景杂波的影响。在【】中已经证明,GMP比GAP更有效,我们的实验也再次证明了这一点。基于此,我们提出了一种基于GMP的新的GCP方法,从行人各个部位提取全局特征图。我们在局部层次特征上首先应用平均和最大值池化,而不是在初始特征图上应用GAP或GMP。我们分别用
和
表示分别用平均池化和最大值池化。注意,
和
对背景杂波是健壮的,因为我们使用GMP方法来获得初始的局部特征。也就是说,我们将每个水平区域中最具判别性的部分整合起来。特别是,
相对于主干网络的初始特征图,与GMP的结果相对应。然后,我们通过从
中减去
来计算出对比特征
,即他们之间的差异。除了用
的信息外,它还聚合来自身体各个部位的大多数判别信息。我们通过增加bottleneck层来减少
和
的通道数量,分别用
和
,最后将对比特征
的互补特征传递给
。形式上,我们得到输入图像的全局对比特征:
。其中,
是包含1*1卷积、BN和ReLU层的子网络。全局特征
以
为基础,结合
和对比特征
的互补信息。因此,它继承了GMP的优点,如对背景杂波的鲁棒性,同时覆盖整个行人身体部分。我们将上式的全局对比特征
与局部关系特征
链接,作为行人图像的特征表示。
Conclusion:
我们为person reID提出了一个关系网络,考虑了身体各个部分与其余部分之间的关系,使得每个部分层次的特征更加具有辨别力。我们还建议使用对比特征来表示全局person。我们在person reID上设置了一个新的技术状态,远远超过了其他reID方法。消融分析清楚地证明了我们的模型中每个组件的有效性。
周郎有话说:论文中的one VS rest关系网络还是容易理解的。GCP有点绕。