極智Paper | MAUM 直面跨模态行人re-ID

歡迎關注我的公衆号 [極智視界]，擷取我的更多筆記分享

大家好，我是極智視界，本文解讀一下 MAUM 直面跨模态行人 re-ID。

本文通過抑制模态差異來解決跨模态行人重識别 (re-ID) 問題。在跨模态 re-ID 中，query 和 gallery 圖像是不同的模态。給定一個訓練 ID，流行的深度分類 baseline 是對兩種模态共享相同的代理 (即最後一層的權重向量)。作者發現這樣的做法對模态差異有相當大的容忍度，因為共享代理會作為兩個模态之間的中間中繼。為此，提出了一種記憶增強單向度量學習方法 (MAUM)，包括兩種新的設計，即單向度量和基于記憶的增強。具體來說，MAUM 首先在每個模态下獨立學習特定模态代理 (MS-Proxies)，之後，MAUM 使用已經學習過的 MS-Proxies 作為靜态引用，在對應的模态中關閉特征。這兩個單向的名額 (IR圖像到RGB代理以及 RGB圖像到IR代理) 共同緩解了中繼效應，有利于跨模态聯合。通過将 MS-Proxies 存儲到 memory banks 以增加參考的多樣性，進一步增強了跨模态關聯。作者展示了 MAUM 在模态平衡情景下，改善了跨模态 re-ID 的效果，另外對于模态不平衡情景也具有很好的魯棒性。并在 SYSU-MM01 和 RegDB 資料集上進行了大量實驗證明了 MAUM 的優越性。相關代碼即将開源。

論文位址：https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_Learning_Memory-Augmented_Unidirectional_Metrics_for_Cross-Modality_Person_Re-Identification_CVPR_2022_paper.pdf

文章目錄

1. 簡介
2. 相關工作

2.1 跨模态度量學習
2.2 基于記憶的學習
2.3 資料不平衡的學習

3. 方法

3.1 MAUM

3.1.1 特定模态代理
3.1.2 建構 memory bank
3.1.3 學習單向度量
3.1.4 優化
3.1.5 帶有部件特征的 MAUM

3.2 模态不平衡場景下的 MAUM
3.3 機制分析

4. 實驗

4.1 主要設定
4.2 MAUM 的有效性
4.3 消融實驗
4.4 模态不平衡場景
4.5 模态碎片場景

5. 超參數分析
6. 總結
7. 參考

1. 簡介

本文主要研究跨模态的行人重識别問題 (re-ID)。Re-ID 旨在從資料庫中檢索相關人員圖像的任務，現實世界的 re-ID 系統有時需要不分晝夜地識别同一個人。為此，需要使用了兩種不同的裝置：白天的 RGB 相機、晚上的紅外 (IR) 相機。當 query 和 gallery 圖像來自不同的模态時，顯著的模态差異是最突出的挑戰。在本文中，作者試圖通過解決模态差異來改進跨模态 re-ID 的效果。從度量學習的觀點來看，re-ID 的主旨是學習一個具有 **類内緊湊 ** 和類間分離的嵌入空間。基于深度分類學習 baseline 是用于 re-ID 和人臉識别任務的一種流行方法。在訓練過程中，它将所有相同 ID 的特征拉向一個對應的代理 (即分類層中的權重向量)。

當将這一 baseline 應用于跨模态 re-ID 時，作者發現模态差異問題顯著阻礙了類内緊湊性，如圖1 (a)。在baseline 中，不管其底層模式如何，相同 ID 的所有執行個體共享一個代理。模态無關的代理努力适應 IR 和 RGB 特性，并充當它們之間的中間中繼，這樣的中繼效應導緻對模态差異有相當大的容忍度。從圖1 (a) 中的 t-SNE 可視化中可以觀察到，兩種模态的特征之間存在明顯的模态差異。不同 ID 相同模态的特征比相同 ID 不同模态的特征更加接近。例如，ID116 和 ID119 的類間距離小于 ID-116 的類内距離。

為了抑制模态差異，作者提出了一種記憶增強單向度量學習方法 (MAUM)，它有兩個新穎的設計，即 (1) 學習單向度量；(2) 使用 memory bank 增強。

首先，學習了兩個單向名額 (“IR” 到 “RGB” 和 “RGB” 到 “IR”)，以緩解 baseline 的中繼效應。MAUM 為每個 ID 學習兩個特定模态的代理 (MS-Proxies)，如圖1 (b)。RGB(IR) 代理隻接收來自 RGB(IR) 特性的梯度，是以可以用來表示專用的模态。然後，當機它們并使用 RGB 代理作為提取 IR 特征的靜态引用，反之亦然。這兩個單向名額促進了更好的跨模态關聯。

其次，通過基于記憶的增強進一步加強了這兩個單向名額。每次疊代之後，MAUM 将 IR 和 RGB 代理存儲到各自的 memory bank 中。由于 MS-proxies 不斷疊代更改 (即"漂移"現象)，每個 ID 在 memory bank 中都有多個不同的 IR 和 RGB 代理，如圖1(b) 所示。一些曆史的 MS-Proxies (比最新的 MS-Proxies) 離模态邊界更加遠，是以對對應模态特征具有更加強的 “拉近” 效應。總之，memory bank 通過難分正樣本增強了 MAUM，進而促進了跨模态關聯。作者指出，基于記憶的學習在 MAUM 中揭示了一個前所未知但重要的潛力。具體來說，作者使用 “漂移” 來增強參考。相比之下，之前的研究認為 “漂移” 會帶來負面影響，并試圖避免它。如圖1(b) 所示，具有相同 ID 的特征分布緊湊，這表明模态差異被抑制了。例如如圖1(a)，ID-116 的類内嵌入明顯比 baseline 的更加緊湊。

除了能有效地減小模态差異外，提出的 MAUM 在模态不平衡情景下也具有特殊的優勢。在訓練資料中，由于人們在夜間活動較少，紅外圖像通常要比 RGB 圖像稀缺，且紅外圖像更難标注。在 MAUM 中，單向度量和基于記憶體的增強都是基于特定模态的，IR 代理上的增強獨立于 RGB 代理上的增強，反之亦然。是以，MAUM 可以重新平衡 IR 和 RGB 模态的增強。通過重新平衡增益，彌補了紅外圖像的不足，對模态不平衡問題具有較強的魯棒性。

作者的主要貢獻總結如下：

(1) 提出了一種新的記憶增強單向度量學習方法，用于跨模态 re-ID 問題。它在兩個單向上學習顯式的跨模态度量，并通過基于記憶體的增強進一步增強它們；

(2) 考慮了模态不平衡問題，這是跨模态 re-ID 中一個重要的現實問題。通過調整特定模态的增益，MAUM 對模态不平衡問題表現出較強的魯棒性；

(3) 作者在模态平衡和模态不平衡兩種情況下綜合評估了他們的方法，實驗結果表明，在兩種情況下，MAUM 均能顯著提高跨模态 re-ID 的性能，顯著優于現有的方法。

2. 相關工作

2.1 跨模态度量學習

在異構人臉識别中首次研究了跨模态問題，這些早期的工作都使用模态無關的代理來加強類内的緊湊性。《Rgb-infrared cross-modality per-son re-identification》首先介紹了行人重識别中的跨模态問題，并逐漸引起了 re-ID 界的關注。和本文最接近的工作是《Cross-modality person re-identification via modality-aware collaborative ensemble learning》，與作者的方法類似，也使用特定模态的分類層，然而，兩者之間又存在顯著差異。他們使用特定模态分類器的內建來生成一個增強的教師模型，用于協作內建學習；而 MAUM 使用特定模态的分類器來學習特定于模态的代理，這些代理在收斂後是固定的，用于學習單向名額。

2.2 基于記憶的學習

Memory bank 在有監督、半監督和無監督中被廣泛應用。在半監督學習中，使用 memory bank 來獲得曆史預測的時間集合，它加強了未标記樣本的最新預測與時間集合之間的一緻性。無監督學習的兩個重要研究成果 ( MOCO 和監督度量學習 (XBM)) 在使用 memory bank 方面有着類似的動機。具體來說，MOCO 增加了存儲的秘鑰數量，以便于更加好地進行對比學習；XBM 通過存儲曆史的特征增強了難例挖掘的效果。它們都是通過增加負面特征從 memory bank 中獲益。

在這種基于記憶的學習背景下，作者指出 MAUM 的新穎之處在于一種新的跨模态度量學習機制。在 MAUM 中，memory bank 的好處不是由于時間一緻性 (如半監督學習) 或更多的負樣本 (如 MOCO 和 XBM)。MAUM 受益于模型漂移，它有助于 MAUM 獲得難分正樣本參考，促進跨模态關聯。此外，MAUM 将代理存儲到 memory bank 中，這可以看作是對度量學習任務的一種新的模型擴充，而相比之下，之前的工作隻是存儲特征向量。

2.3 資料不平衡的學習

資料不平衡是深度學習的一個重要挑戰。以往的研究大多關注類别不平衡問題，主要有兩種解決方法，即重采樣和重權重。重采樣是指在訓練中對少數類 (樣本少) 進行過采樣，對高頻類 (樣本多) 進行少采樣，目的是在每次疊代中平衡頭尾資料。重權重是指為損失函數中的不同類甚至不同樣本配置設定自适應權重。

論文注意到在跨模态任務中存在一個獨特的資料不平衡問題，即模态不平衡。模态不平衡是指一種模态比另一種模态包含更多樣本的情況。在 MAUM 中，針對特定模态的增強是各自分離的，允許對特定模态進行獨立的增強，這使 MAUM 對模态不平衡問題具有較強的魯棒性。

3. 方法

3.1 MAUM

MAUM 的架構如圖2 所示。MAUM 采用 ResNet50 作為 backbone，接受 RGB 和 IR 圖像作為輸入。MAUM 将第一個卷積塊分成兩個獨立的分支，以适應特定模态的低級特征形式，一個用于 RGB，另一個用于 IR。為了計算效率，兩種模态共享所有的卷積塊。對于卷積特征映射，MAUM 使用全局平均池化 (GAP) 為每個輸入圖像生成深度嵌入。基于這種普遍采用的 backbone 設定，提出的 MAUM 着重于其新的記憶增強單向度量學習方法。

3.1.1 特定模态代理

MAUM 首先用兩個特定模态( IR 和 RGB)的 ID 分類器補充了 baseline 中與模式無關的 ID 分類器，以促進單向度量，所有的三個 ID 分類器都使用各自的全連接配接層來實作。它們的差別在于：模态無關的 ID 分類器同時接受 RGB 和 IR 特征，而 IR (RGB) ID 分類器隻接受 IR (RGB) 特征進行訓練。相應的，IR 和 RGB 分類器學習兩組特定模态的代理。考慮到 RGB 的特性，RGB 分類器采用廣泛使用的交叉熵損失作為優化目标，其表達式如公式(1)。

在每個特定模态的分類器中，MS-Proxies 不再努力适應兩個相反的模态，是以對其專用的模态具有高度代表性。

3.1.2 建構 memory bank

在完全訓練特定模态的代理之後，MAUM 将它們收集到兩個相應的 memory bank 中，并使用隊列政策來更新 memory bank，當 memory bank 達到其大小限制後，将最新的代理進行入隊，将最舊的代理進行出隊。memory bank 對 MAUM 有三個關鍵的功能：(1) 它們當機已經學習過的 MS-Proxies，并使用它們作為單向度量學習的靜态參考；(2) 它們利用模型漂移現象累積曆史的 MS-Proxies 來增強這些 MS-Proxies 的多樣性；(3) 它們幫助 MAUM 獲得額外的抵抗模态不平衡問題的魯棒性，因為基于記憶的增強是針對特定模态的，是以可以獨立調整以重新平衡 IR 和 RGB 模态。

3.1.3 學習單向度量

當機 memory bank 裡的MS-Proxies，然後用它們作為靜态參考來拉近對應模态中的特征。作者注意到，盡管在特定模态的分類器中，每個 ID 隻有一個 IR 和 RGB 代理，但将曆史 MS-Proxies 存儲到 memory bank 中仍會逐漸增加其數量。是以，在 RGB (IR) memory bank 中，每個辨別都有多個 RGB (IR) 代理，為單個 IR (RGB) 特征提供多個正樣本參考。受到 Circle Loss 的啟發，作者将學習 RGB 圖像到 IR 代理的單向度量的損失函數定義為公式(2)。

3.1.4 優化

作者将一個模态共享損失、兩個特定模态損失和兩個單向度量損失組合在一起，得到總體損失函數，如公式(3)。

其中 λ 是平衡單向度量損失貢獻的超參數。

3.1.5 帶有部件特征的 MAUM

部件特征通常能夠改善可視re-ID 以及跨模态re-ID 的性能。為了驗證 MAUM 與部件特征相容，作者引入了一個基于部件特征的變體，即 MAUM^p。這個變體根據一個簡單的部件特征 baseline，将最後一個卷積特征映射均勻地分成六個部件特征。在訓練過程中，每個部件都有各自的監督。在測試過程中，将所有的六個部件特征串聯起來，形成最終的表示。

3.2 模态不平衡場景下的 MAUM

在跨模态 re-ID 中，紅外圖像通常比 RGB 圖像稀缺，進而産生模态不平衡問題，且紅外圖像更加難标注。當模态不平衡達到一個極限時，一些 ID 可能隻有一個模态 (如隻有 RGB)。咱們将這兩種情況定義為：(1) Modality-imbalance scenario，每個 ID 都有兩種形式，且紅外圖像比 RGB 圖像少；(2) Modality-fragmentary scenario，有些 ID 隻有一個模态，而其他 ID 有兩個模态。

MAUM 是第一個考慮跨模态 re-ID 中的模态不平衡問題的工作。實驗表明，模态不平衡問題顯著降低了 re-ID 的精度。在 MAUM 中，由于增強是基于兩個特定模态的 memory banks，它們之間的比例可以靈活調整，用以彌補紅外圖像樣本的不足。是以，MAUM 對于模态不平衡問題具有較強的魯棒性。

3.3 機制分析

這裡分析了 MAUM 中基于記憶的增強機制。作者展示了 memory bank 中累積的代理漂移是增強單向度量學習的原因。

當我們在兩個不同的訓練疊代中觀察相同 ID 的代理時，這兩個觀察結果自然是不同的。為了定量分析，作者将同一代理的兩個觀測值之間的差定義為代理漂移，如公式(4)。

圖3(a) 顯示了不同采樣間隔下的漂移情況，可以看到：間隔越大，漂移越大。是以，在将代理存儲到 memory bank 中時，MAUM 傾向于使用相對較大的采樣間隔，以增加曆史代理之間的多樣性。

圖3(b) 用 t-SNE 可視化了 memory bank 中代理的分布情況，由于代理漂移，曆史代理分散在最新代理周圍。一些曆史代理遠離模态邊界，這就成為了在對應模态中拉近特征的難分正樣本。它們促進了更強的跨模态關聯，進而提高了跨模态 re-ID。

最近，XBM 在使用 memory bank 增強度量學習時也注意到了漂移現象，但它認為漂移是 memory bank 的副作用。是以，當漂移衰減到一個小範圍後，XBM 才開始基于記憶進行學習。同樣在 MOCO 中，在深度模型上應用指數移動平均運算來平滑曆史鍵的漂移。相比之下，MAUM 與它們有着本質的不同。在 MAUM 中，利用漂移來增加曆史代理的多樣性，這有助于學習更加魯棒的跨模态關聯。這一發現與以往的研究相反，激發了人們對漂移現象和基于記憶的學習的新認知。

4. 實驗

4.1 主要設定

Datasets 作者在兩個公共的跨模态 re-ID 資料集上評估了本文的方法，即 SYSU-MM01 和 RegDB。SYSU-MM01是由 4 個 RGB 攝像頭和 2 個紅外攝像頭在室内和室外環境中的 491 個 ID 組成。訓練集中有 395 個 ID 的22258 張 RGB 圖像和 11909 張 IR 圖像。query 集中包含了 3803 張 IR 圖像，而 gallery 集中包含了 301 張 RGB 圖像。RegDB 的采集采用雙攝像頭系統，包括一個可見光攝像頭和一個紅外攝像頭。總共有 412 個 ID，其中 206 個 ID 用于訓練，另外 206 個 ID 用于測試。每個 ID 包含 10 張 RGB 圖像和 10 張 IR 圖像。

Evaluation metrics 所有實驗均遵循标準的評價名額，即 CMC 和 mAP。所有的實驗結果都是 10 次試驗的平均值。

Implementation details 為了進行公平的比較，使用在 ImageNet上預訓練的 ResNet50 作為backbone。對于 RGB 和 IR 圖像，輸入圖像的大小調整為 288x114x3。具有全局特征的 MAUM 使用 2048 維向量表示特征，具有部件特征的 MAUM 使用 3072 維向量表示特征。訓練 batchsize 設定為 64，由 8 個 ID 組成，每個 ID 有 4 張 RGB 圖像和 4 張紅外圖像。

4.2 MAUM 的有效性

通過比較 baseline 和最先進的方法來評估 MAUM 的有效性。為了公平比較，将比較方法分為兩組，即基于全局特征的方法和基于部件特征的方法，表1展示了在 RegDB 和 SYSU-MM01 上的結果。從中我們可以觀察到兩點：(1) 将 MAUM 于 baseline 進行比較，可以發現 MAUM 顯著改善了 baseline；(2) MAUM 在全局特征和部件特征設定下都實作了具有競争力的性能。

4.3 消融實驗

作者通過消融實驗研究了兩個關鍵元件，即單向度量 (UM) 和基于記憶的增強 (MA)，實驗結果如表2。

4.4 模态不平衡場景

作者研究了模态不平衡情況下的 MAUM。為了更加全面的研究，基于原始的 SYSU-MM01 資料集綜合了幾種不同的不平衡設定，實驗結果如表3。

4.5 模态碎片場景

作者研究了模态碎片情景下的 MAUM，如有些訓練 ID 隻有單一模态。在原有 SYSU-MM01 的基礎上，通過去除一些 ID 的紅外圖像，合成了多個模态碎片資料集，實驗結果如表4。

5. 超參數分析

圖4 實驗分析了 memory bank 和 sampling interval 這兩個超參數在 SYSU-MM01 上對效果的影響。

6. 總結

論文提出了一種用于跨模态 re-ID 的記憶增強單向度量學習方法 MAUM。MAUM有兩個優點：(1) MAUM 沒有使用模式無關的代理作為兩個模态之間的中間中繼，而是強制顯式地與兩個單向度量進行跨模态關聯；(2) 通過探索模型漂移的潛力，MAUM 通過基于記憶增強進一步加強了跨模态關聯。結合這兩個優點，MAUM 顯著抑制了模态差異，提高了跨模态 re-ID 的能力。還有另外一個貢獻是，将模态不平衡問題引入到跨模态 re-ID 社群中，并證明了 MAUM 在該問題上具有較高的魯棒性和優越性。

Limitation 在 MAUM 中，使用兩個特定模态的 memory banks 來存儲 MS-Proxies。雖然這些代理沒有梯度，但存儲和使用它們仍然需要一定的記憶體和計算開銷。當訓練集規模較大時，如工業資料集，其記憶體和計算開銷是不可忽視的。如何優化記憶體和計算開銷将是今後工作的重點。

7. 參考

[1] Learning Memory-Augmented Unidirectional Metrics for Cross-modality Person Re-identification.

[2] Rgb-infrared cross-modality per-son re-identification.

[3] Cross-modality person re-identification via modality-aware collaborative ensemble learning.

好了，以上解讀了 MAUM 直面跨模态行人 re-ID。希望我的分享能對你的學習有一點幫助。

【極智視界】