天天看點

【Deep Clustering】Improving Unsupervised Image Clustering With Robust Learning

Abstract

非監督圖像聚類算法通常是提出一個輔助目标函數間接訓練模型,并且聚類結果受到錯誤的預測和過于自信(overconfidence)的結果的影響,作者通過提出RUC (Robust learning for Unsupervised Clustering)子產品解決這個問題,該子產品将現有聚類算法生成的僞标簽(可能會包含錯誤分類的樣本)看作噪聲樣本,而它的重新訓練過程可以糾正錯誤分類并緩解過度自信的問題。該子產品可以作為其他聚類算法的附加子產品用來提高精度

【Deep Clustering】Improving Unsupervised Image Clustering With Robust Learning

RUC主要由兩個部分組成:1. extracting clean samples 2. retraining with the refined dataset

作者探索了confidence-based,metric-based,hybrid 三個政策用來過濾掉誤分類的僞标簽

  • confidence-based

将原聚類算法給出高置信度的樣本看作幹淨樣本,剔除置信度小的樣本

  • metric-based

利用無監督embedding子產品的相似度度量,使用非參數化分類器通過檢查給定的執行個體與k-nearest樣本的label是否相同來檢測幹淨樣本

  • hybrid

同時根據兩個方法篩選幹淨樣本

緊接着作者使用半監督方法MixMatch來retrain模型,該方法主要将幹淨樣本看作有标簽資料,不幹淨樣本看作無标簽樣本,同時還采用了smooth label。最後使用co-training模型減少訓練過程中不幹淨樣本的噪聲積累,提高性能

Method

RUC子產品的過程結構圖如下

【Deep Clustering】Improving Unsupervised Image Clustering With Robust Learning
  1. Extracting Clean Samples

定義:  為訓練資料集(  為圖檔,  為僞标簽),資料集  可以被分為兩個部分  (  為幹淨資料)

  • Confidence-based strategy

給定訓練樣本  如果  (即屬于某個cluster的置信度高于某個門檻值),則将其加入集合  否則加入集合  。通常門檻值  設得很高,以消除盡可能多的不确定樣本。

  • Metric-based strategy

上面方法的缺陷在于其全部依賴于無監督的分類器,本方法利用通過無監督方法(如:SimCLR)訓練的embedding網絡  ,根據僞标簽與使用  得到的分類結果的一緻程度來衡量僞标簽的可信度

對于每個  ,計算其embedding  并且使用基于kNN的無參數分類器得到  ,如果  ,則将其加入  ,否則加入 

  • Hybrid strategy

如果一個樣本同時滿足上兩個方法,則加入  ,否則加入 

2. Retraining via Robust Learning

給定  和  ,下一步是refine分類器  糾正原始無監督聚類算法的錯誤。

  • Vanilla semi-supervised learning

作者使用MixMatch作為baseline,該算法從使用MixUp資料增強方法得到的無标簽資料中估計低熵混合标簽(low-entropy mixed label),具體來說,給定從有标簽或無标簽資料集中采樣的一對樣本  ,資料增強操作如下

MixMatch采用一個代理标簽  ,其是銳化後多個增強圖檔上模型預測的平均

經過MixMatch得到  ,半監督模型存在兩個獨立的loss:1. 有标簽資料集  上的交叉熵 2. 無标簽資料集  的一緻性正則化,以下是具體過程

其中  表示  和  之間的交叉熵

  • Label Smoothing

在半監督學習模型上使用label smoothing改進模型的預測校準,其label smoothing通過混合均勻分布來實作。

其中  是類别數量,  為噪音

計算soft label  和随機增強後的強增強樣本  的預測标簽之間的交叉熵,我們發現,強增強可以使噪聲樣本的記憶最小化

則最終的訓練優化目标為

  • Co-training

單一的網絡存在對不正确的僞标簽過拟合的缺陷,是以加入co-training子產品

子產品中兩個網絡  ,它們平行訓練并且通過在MixMatch基礎上添加co-refinement來交換它們的guesses以便于互相teaching,其中co-refinement是标簽refinement的過程,目标是通過合并兩個網絡的預測結果産生可靠的label。我們在  和  上都進行co-refinement操作,下面是從  的角度(給定一個樣本  ,其原标簽為  )展現co-refinement的過程

其中  為對立網絡關于  的置信度,  為sharpen temperature

對于無标簽資料集  ,使用兩個網絡預測的結果猜測樣本  的僞标簽 

其中  為  的第  個弱增強樣本

通過上面操作,co-refinement建構了refined資料集  ,代替了原始資料集  ,則将兩個資料集作為MixMatch的輸入

最後網絡的優化目标為

即,将上面定義的  換成 

  • Co-refurbishing

在訓練過程中的每個epoch的最後,作者翻新噪聲樣本來得到額外幹淨樣本,如果給定不幹淨樣本  ,至少一個網絡的置信度超過門檻值  ,則用網絡的預測  更新對應樣本的标簽,并且該樣本被認為是幹淨樣本,加入  中

其中  表示  的one-hot編碼(第  個元素值為1, )

整體過程的僞代碼如下

【Deep Clustering】Improving Unsupervised Image Clustering With Robust Learning

編輯于 03-28

繼續閱讀