极智Paper | MAUM 直面跨模态行人re-ID

欢迎关注我的公众号 [极智视界]，获取我的更多笔记分享

大家好，我是极智视界，本文解读一下 MAUM 直面跨模态行人 re-ID。

本文通过抑制模态差异来解决跨模态行人重识别 (re-ID) 问题。在跨模态 re-ID 中，query 和 gallery 图像是不同的模态。给定一个训练 ID，流行的深度分类 baseline 是对两种模态共享相同的代理 (即最后一层的权重向量)。作者发现这样的做法对模态差异有相当大的容忍度，因为共享代理会作为两个模态之间的中间中继。为此，提出了一种记忆增强单向度量学习方法 (MAUM)，包括两种新的设计，即单向度量和基于记忆的增强。具体来说，MAUM 首先在每个模态下独立学习特定模态代理 (MS-Proxies)，之后，MAUM 使用已经学习过的 MS-Proxies 作为静态引用，在对应的模态中关闭特征。这两个单向的指标 (IR图像到RGB代理以及 RGB图像到IR代理) 共同缓解了中继效应，有利于跨模态联合。通过将 MS-Proxies 存储到 memory banks 以增加参考的多样性，进一步增强了跨模态关联。作者展示了 MAUM 在模态平衡情景下，改善了跨模态 re-ID 的效果，另外对于模态不平衡情景也具有很好的鲁棒性。并在 SYSU-MM01 和 RegDB 数据集上进行了大量实验证明了 MAUM 的优越性。相关代码即将开源。

论文地址：https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_Learning_Memory-Augmented_Unidirectional_Metrics_for_Cross-Modality_Person_Re-Identification_CVPR_2022_paper.pdf

文章目录

1. 简介
2. 相关工作

2.1 跨模态度量学习
2.2 基于记忆的学习
2.3 数据不平衡的学习

3. 方法

3.1 MAUM

3.1.1 特定模态代理
3.1.2 构建 memory bank
3.1.3 学习单向度量
3.1.4 优化
3.1.5 带有部件特征的 MAUM

3.2 模态不平衡场景下的 MAUM
3.3 机制分析

4. 实验

4.1 主要设置
4.2 MAUM 的有效性
4.3 消融实验
4.4 模态不平衡场景
4.5 模态碎片场景

5. 超参数分析
6. 总结
7. 参考

1. 简介

本文主要研究跨模态的行人重识别问题 (re-ID)。Re-ID 旨在从数据库中检索相关人员图像的任务，现实世界的 re-ID 系统有时需要不分昼夜地识别同一个人。为此，需要使用了两种不同的设备：白天的 RGB 相机、晚上的红外 (IR) 相机。当 query 和 gallery 图像来自不同的模态时，显著的模态差异是最突出的挑战。在本文中，作者试图通过解决模态差异来改进跨模态 re-ID 的效果。从度量学习的观点来看，re-ID 的主旨是学习一个具有 **类内紧凑 ** 和类间分离的嵌入空间。基于深度分类学习 baseline 是用于 re-ID 和人脸识别任务的一种流行方法。在训练过程中，它将所有相同 ID 的特征拉向一个对应的代理 (即分类层中的权重向量)。

当将这一 baseline 应用于跨模态 re-ID 时，作者发现模态差异问题显著阻碍了类内紧凑性，如图1 (a)。在baseline 中，不管其底层模式如何，相同 ID 的所有实例共享一个代理。模态无关的代理努力适应 IR 和 RGB 特性，并充当它们之间的中间中继，这样的中继效应导致对模态差异有相当大的容忍度。从图1 (a) 中的 t-SNE 可视化中可以观察到，两种模态的特征之间存在明显的模态差异。不同 ID 相同模态的特征比相同 ID 不同模态的特征更加接近。例如，ID116 和 ID119 的类间距离小于 ID-116 的类内距离。

为了抑制模态差异，作者提出了一种记忆增强单向度量学习方法 (MAUM)，它有两个新颖的设计，即 (1) 学习单向度量；(2) 使用 memory bank 增强。

首先，学习了两个单向指标 (“IR” 到 “RGB” 和 “RGB” 到 “IR”)，以缓解 baseline 的中继效应。MAUM 为每个 ID 学习两个特定模态的代理 (MS-Proxies)，如图1 (b)。RGB(IR) 代理只接收来自 RGB(IR) 特性的梯度，因此可以用来表示专用的模态。然后，冻结它们并使用 RGB 代理作为提取 IR 特征的静态引用，反之亦然。这两个单向指标促进了更好的跨模态关联。

其次，通过基于记忆的增强进一步加强了这两个单向指标。每次迭代之后，MAUM 将 IR 和 RGB 代理存储到各自的 memory bank 中。由于 MS-proxies 不断迭代更改 (即"漂移"现象)，每个 ID 在 memory bank 中都有多个不同的 IR 和 RGB 代理，如图1(b) 所示。一些历史的 MS-Proxies (比最新的 MS-Proxies) 离模态边界更加远，因此对对应模态特征具有更加强的 “拉近” 效应。总之，memory bank 通过难分正样本增强了 MAUM，从而促进了跨模态关联。作者指出，基于记忆的学习在 MAUM 中揭示了一个前所未知但重要的潜力。具体来说，作者使用 “漂移” 来增强参考。相比之下，之前的研究认为 “漂移” 会带来负面影响，并试图避免它。如图1(b) 所示，具有相同 ID 的特征分布紧凑，这表明模态差异被抑制了。例如如图1(a)，ID-116 的类内嵌入明显比 baseline 的更加紧凑。

除了能有效地减小模态差异外，提出的 MAUM 在模态不平衡情景下也具有特殊的优势。在训练数据中，由于人们在夜间活动较少，红外图像通常要比 RGB 图像稀缺，且红外图像更难标注。在 MAUM 中，单向度量和基于内存的增强都是基于特定模态的，IR 代理上的增强独立于 RGB 代理上的增强，反之亦然。因此，MAUM 可以重新平衡 IR 和 RGB 模态的增强。通过重新平衡增益，弥补了红外图像的不足，对模态不平衡问题具有较强的鲁棒性。

作者的主要贡献总结如下：

(1) 提出了一种新的记忆增强单向度量学习方法，用于跨模态 re-ID 问题。它在两个单向上学习显式的跨模态度量，并通过基于内存的增强进一步增强它们；

(2) 考虑了模态不平衡问题，这是跨模态 re-ID 中一个重要的现实问题。通过调整特定模态的增益，MAUM 对模态不平衡问题表现出较强的鲁棒性；

(3) 作者在模态平衡和模态不平衡两种情况下综合评估了他们的方法，实验结果表明，在两种情况下，MAUM 均能显著提高跨模态 re-ID 的性能，显著优于现有的方法。

2. 相关工作

2.1 跨模态度量学习

在异构人脸识别中首次研究了跨模态问题，这些早期的工作都使用模态无关的代理来加强类内的紧凑性。《Rgb-infrared cross-modality per-son re-identification》首先介绍了行人重识别中的跨模态问题，并逐渐引起了 re-ID 界的关注。和本文最接近的工作是《Cross-modality person re-identification via modality-aware collaborative ensemble learning》，与作者的方法类似，也使用特定模态的分类层，然而，两者之间又存在显著差异。他们使用特定模态分类器的集成来生成一个增强的教师模型，用于协作集成学习；而 MAUM 使用特定模态的分类器来学习特定于模态的代理，这些代理在收敛后是固定的，用于学习单向指标。

2.2 基于记忆的学习

Memory bank 在有监督、半监督和无监督中被广泛应用。在半监督学习中，使用 memory bank 来获得历史预测的时间集合，它加强了未标记样本的最新预测与时间集合之间的一致性。无监督学习的两个重要研究成果 ( MOCO 和监督度量学习 (XBM)) 在使用 memory bank 方面有着类似的动机。具体来说，MOCO 增加了存储的秘钥数量，以便于更加好地进行对比学习；XBM 通过存储历史的特征增强了难例挖掘的效果。它们都是通过增加负面特征从 memory bank 中获益。

在这种基于记忆的学习背景下，作者指出 MAUM 的新颖之处在于一种新的跨模态度量学习机制。在 MAUM 中，memory bank 的好处不是由于时间一致性 (如半监督学习) 或更多的负样本 (如 MOCO 和 XBM)。MAUM 受益于模型漂移，它有助于 MAUM 获得难分正样本参考，促进跨模态关联。此外，MAUM 将代理存储到 memory bank 中，这可以看作是对度量学习任务的一种新的模型扩展，而相比之下，之前的工作只是存储特征向量。

2.3 数据不平衡的学习

数据不平衡是深度学习的一个重要挑战。以往的研究大多关注类别不平衡问题，主要有两种解决方法，即重采样和重加权。重采样是指在训练中对少数类 (样本少) 进行过采样，对高频类 (样本多) 进行少采样，目的是在每次迭代中平衡头尾数据。重加权是指为损失函数中的不同类甚至不同样本分配自适应权重。

论文注意到在跨模态任务中存在一个独特的数据不平衡问题，即模态不平衡。模态不平衡是指一种模态比另一种模态包含更多样本的情况。在 MAUM 中，针对特定模态的增强是各自分离的，允许对特定模态进行独立的增强，这使 MAUM 对模态不平衡问题具有较强的鲁棒性。

3. 方法

3.1 MAUM

MAUM 的框架如图2 所示。MAUM 采用 ResNet50 作为 backbone，接受 RGB 和 IR 图像作为输入。MAUM 将第一个卷积块分成两个独立的分支，以适应特定模态的低级特征形式，一个用于 RGB，另一个用于 IR。为了计算效率，两种模态共享所有的卷积块。对于卷积特征映射，MAUM 使用全局平均池化 (GAP) 为每个输入图像生成深度嵌入。基于这种普遍采用的 backbone 设置，提出的 MAUM 着重于其新的记忆增强单向度量学习方法。

3.1.1 特定模态代理

MAUM 首先用两个特定模态( IR 和 RGB)的 ID 分类器补充了 baseline 中与模式无关的 ID 分类器，以促进单向度量，所有的三个 ID 分类器都使用各自的全连接层来实现。它们的区别在于：模态无关的 ID 分类器同时接受 RGB 和 IR 特征，而 IR (RGB) ID 分类器只接受 IR (RGB) 特征进行训练。相应的，IR 和 RGB 分类器学习两组特定模态的代理。考虑到 RGB 的特性，RGB 分类器采用广泛使用的交叉熵损失作为优化目标，其表达式如公式(1)。

在每个特定模态的分类器中，MS-Proxies 不再努力适应两个相反的模态，因此对其专用的模态具有高度代表性。

3.1.2 构建 memory bank

在完全训练特定模态的代理之后，MAUM 将它们收集到两个相应的 memory bank 中，并使用队列策略来更新 memory bank，当 memory bank 达到其大小限制后，将最新的代理进行入队，将最旧的代理进行出队。memory bank 对 MAUM 有三个关键的功能：(1) 它们冻结已经学习过的 MS-Proxies，并使用它们作为单向度量学习的静态参考；(2) 它们利用模型漂移现象累积历史的 MS-Proxies 来增强这些 MS-Proxies 的多样性；(3) 它们帮助 MAUM 获得额外的抵抗模态不平衡问题的鲁棒性，因为基于记忆的增强是针对特定模态的，所以可以独立调整以重新平衡 IR 和 RGB 模态。

3.1.3 学习单向度量

冻结 memory bank 里的MS-Proxies，然后用它们作为静态参考来拉近对应模态中的特征。作者注意到，尽管在特定模态的分类器中，每个 ID 只有一个 IR 和 RGB 代理，但将历史 MS-Proxies 存储到 memory bank 中仍会逐渐增加其数量。因此，在 RGB (IR) memory bank 中，每个标识都有多个 RGB (IR) 代理，为单个 IR (RGB) 特征提供多个正样本参考。受到 Circle Loss 的启发，作者将学习 RGB 图像到 IR 代理的单向度量的损失函数定义为公式(2)。

3.1.4 优化

作者将一个模态共享损失、两个特定模态损失和两个单向度量损失组合在一起，得到总体损失函数，如公式(3)。

其中 λ 是平衡单向度量损失贡献的超参数。

3.1.5 带有部件特征的 MAUM

部件特征通常能够改善可视re-ID 以及跨模态re-ID 的性能。为了验证 MAUM 与部件特征兼容，作者引入了一个基于部件特征的变体，即 MAUM^p。这个变体根据一个简单的部件特征 baseline，将最后一个卷积特征映射均匀地分成六个部件特征。在训练过程中，每个部件都有各自的监督。在测试过程中，将所有的六个部件特征串联起来，形成最终的表示。

3.2 模态不平衡场景下的 MAUM

在跨模态 re-ID 中，红外图像通常比 RGB 图像稀缺，从而产生模态不平衡问题，且红外图像更加难标注。当模态不平衡达到一个极限时，一些 ID 可能只有一个模态 (如只有 RGB)。咱们将这两种情况定义为：(1) Modality-imbalance scenario，每个 ID 都有两种形式，且红外图像比 RGB 图像少；(2) Modality-fragmentary scenario，有些 ID 只有一个模态，而其他 ID 有两个模态。

MAUM 是第一个考虑跨模态 re-ID 中的模态不平衡问题的工作。实验表明，模态不平衡问题显著降低了 re-ID 的精度。在 MAUM 中，由于增强是基于两个特定模态的 memory banks，它们之间的比例可以灵活调整，用以弥补红外图像样本的不足。因此，MAUM 对于模态不平衡问题具有较强的鲁棒性。

3.3 机制分析

这里分析了 MAUM 中基于记忆的增强机制。作者展示了 memory bank 中累积的代理漂移是增强单向度量学习的原因。

当我们在两个不同的训练迭代中观察相同 ID 的代理时，这两个观察结果自然是不同的。为了定量分析，作者将同一代理的两个观测值之间的差定义为代理漂移，如公式(4)。

图3(a) 显示了不同采样间隔下的漂移情况，可以看到：间隔越大，漂移越大。因此，在将代理存储到 memory bank 中时，MAUM 倾向于使用相对较大的采样间隔，以增加历史代理之间的多样性。

图3(b) 用 t-SNE 可视化了 memory bank 中代理的分布情况，由于代理漂移，历史代理分散在最新代理周围。一些历史代理远离模态边界，这就成为了在对应模态中拉近特征的难分正样本。它们促进了更强的跨模态关联，从而提高了跨模态 re-ID。

最近，XBM 在使用 memory bank 增强度量学习时也注意到了漂移现象，但它认为漂移是 memory bank 的副作用。因此，当漂移衰减到一个小范围后，XBM 才开始基于记忆进行学习。同样在 MOCO 中，在深度模型上应用指数移动平均运算来平滑历史键的漂移。相比之下，MAUM 与它们有着本质的不同。在 MAUM 中，利用漂移来增加历史代理的多样性，这有助于学习更加鲁棒的跨模态关联。这一发现与以往的研究相反，激发了人们对漂移现象和基于记忆的学习的新认知。

4. 实验

4.1 主要设置

Datasets 作者在两个公共的跨模态 re-ID 数据集上评估了本文的方法，即 SYSU-MM01 和 RegDB。SYSU-MM01是由 4 个 RGB 摄像头和 2 个红外摄像头在室内和室外环境中的 491 个 ID 组成。训练集中有 395 个 ID 的22258 张 RGB 图像和 11909 张 IR 图像。query 集中包含了 3803 张 IR 图像，而 gallery 集中包含了 301 张 RGB 图像。RegDB 的采集采用双摄像头系统，包括一个可见光摄像头和一个红外摄像头。总共有 412 个 ID，其中 206 个 ID 用于训练，另外 206 个 ID 用于测试。每个 ID 包含 10 张 RGB 图像和 10 张 IR 图像。

Evaluation metrics 所有实验均遵循标准的评价指标，即 CMC 和 mAP。所有的实验结果都是 10 次试验的平均值。

Implementation details 为了进行公平的比较，使用在 ImageNet上预训练的 ResNet50 作为backbone。对于 RGB 和 IR 图像，输入图像的大小调整为 288x114x3。具有全局特征的 MAUM 使用 2048 维向量表示特征，具有部件特征的 MAUM 使用 3072 维向量表示特征。训练 batchsize 设置为 64，由 8 个 ID 组成，每个 ID 有 4 张 RGB 图像和 4 张红外图像。

4.2 MAUM 的有效性

通过比较 baseline 和最先进的方法来评估 MAUM 的有效性。为了公平比较，将比较方法分为两组，即基于全局特征的方法和基于部件特征的方法，表1展示了在 RegDB 和 SYSU-MM01 上的结果。从中我们可以观察到两点：(1) 将 MAUM 于 baseline 进行比较，可以发现 MAUM 显著改善了 baseline；(2) MAUM 在全局特征和部件特征设置下都实现了具有竞争力的性能。

4.3 消融实验

作者通过消融实验研究了两个关键组件，即单向度量 (UM) 和基于记忆的增强 (MA)，实验结果如表2。

4.4 模态不平衡场景

作者研究了模态不平衡情况下的 MAUM。为了更加全面的研究，基于原始的 SYSU-MM01 数据集综合了几种不同的不平衡设置，实验结果如表3。

4.5 模态碎片场景

作者研究了模态碎片情景下的 MAUM，如有些训练 ID 只有单一模态。在原有 SYSU-MM01 的基础上，通过去除一些 ID 的红外图像，合成了多个模态碎片数据集，实验结果如表4。

5. 超参数分析

图4 实验分析了 memory bank 和 sampling interval 这两个超参数在 SYSU-MM01 上对效果的影响。

6. 总结

论文提出了一种用于跨模态 re-ID 的记忆增强单向度量学习方法 MAUM。MAUM有两个优点：(1) MAUM 没有使用模式无关的代理作为两个模态之间的中间中继，而是强制显式地与两个单向度量进行跨模态关联；(2) 通过探索模型漂移的潜力，MAUM 通过基于记忆增强进一步加强了跨模态关联。结合这两个优点，MAUM 显著抑制了模态差异，提高了跨模态 re-ID 的能力。还有另外一个贡献是，将模态不平衡问题引入到跨模态 re-ID 社区中，并证明了 MAUM 在该问题上具有较高的鲁棒性和优越性。

Limitation 在 MAUM 中，使用两个特定模态的 memory banks 来存储 MS-Proxies。虽然这些代理没有梯度，但存储和使用它们仍然需要一定的内存和计算开销。当训练集规模较大时，如工业数据集，其内存和计算开销是不可忽视的。如何优化内存和计算开销将是今后工作的重点。

7. 参考

[1] Learning Memory-Augmented Unidirectional Metrics for Cross-modality Person Re-identification.

[2] Rgb-infrared cross-modality per-son re-identification.

[3] Cross-modality person re-identification via modality-aware collaborative ensemble learning.

好了，以上解读了 MAUM 直面跨模态行人 re-ID。希望我的分享能对你的学习有一点帮助。

【极智视界】