Densely Semantically Aligned Person Re-Identification
当前的问题及概述:
目前ReID如图1中存在的问题:(a)不同的摄像机视点,(b)不同的姿态,©不完善的人检测,(d)局部内的错位,(e)杂乱的背景,(f)遮挡而造成的人的空间错位。
本文通过对人即时信息语义的估计,构造了一组语义密集对齐的局部图像(dsap image),其中相同的空间位置在不同的图像中具有相同的语义。下图说明了二维人物图像与UV空间中基于规范表示之间的密集对应关系。人体表面被划分为24个区域。每个区域都可以被扭曲成一个DSAP图像,可以看到DSAP中对应人体的每一个部分的语义信息是相同的,因此也避免了背景和遮挡对人物检测的干扰。
模型及loss:
本文设计了一个two-stream网络,它由一个图像分支(MF-Stream)和一个密集语义对齐引导分支(DSAG-Stream)组成。DSAG-Stream扮演一个调节器的角色来帮助训练MF-Stream。引导MF-Stream从原始图像中密集地学习语义对齐的特征。之后通过将dsag流与mf流进行相应的特征融合,并对融合后的特征进行学习来实现。
2.1DSAG-Stream:
基于密集语义对齐模块,从输入人图像中构造24个语义密集对齐的部分图像(DSAP-images)作为dsag分支的输入,进入多分支子网络(MB-Ns)学习局部特征图谱,通过对特征的学习并进行语义对齐操作,将语义相近的特征进行合并,见图4,从MB-Ns中得到8个独立的feature map。
之后将得到的独立的8个feature map输入给head natwork,head natwork由两个独立的分支组成,分别关注全局和局部信息。对于全局分支,得到输出特征向量dG:
其中H(·)表示由若干堆叠层组成的底层映射;P(·)表示平均空间池操作。对于局部分支,输出特征向量dL是8个局部的特征向量dL,i经过映射后再级联的结果:
最终,DSAG-Stream输出global features dG和part-aware features dL
2.2 MF-Stream:
输入原图,经过backbone为Res-50的网络进行特征提取,为了方便使用DSAG-Stream中的相关分支特征进行联合学习,以feature map F作为输入,使用与DSAG-Stream类似的heat network结构,提取到global features fG和part-aware features fL
2.3Two-Stream Fusion:
之后对两个分支的局部和全局特征进行分别各自的联合学习,通过相加得到总的局部特征ZL和总的全局特征ZG。
2.4 loss:
通过Triplet Loss作为Ranking Loss 缩小特征相近的样本的距离,扩大特征差异大的样本的距离,同时,通过CE loss作为identification loss进行分类任务。
实验:
数据集:Market-1501,CUHK03,CUHK01,DukeMTMC-reID
与其他框架比较:
消融实验:
总结:
本文的出发点是对于ReID任务的多角度,异背景,不完整,有遮挡的问题提出了DSAP这一思路,将人物部分进行分块并通过语义信息对齐进行整合,将DSAG和MF的two-stream网络通过head network变为双通道分别提取全局信息和局部信息,再分别相加提取特征,本文的创新点就是DSAG-stream有效的将每一个样本的不同部分进行了语义对齐,有效的解决了多角度,异背景,不完整,有遮挡的样本同类差异大的问题。