Abstract
非監督圖像聚類算法通常是提出一個輔助目标函數間接訓練模型,并且聚類結果受到錯誤的預測和過于自信(overconfidence)的結果的影響,作者通過提出RUC (Robust learning for Unsupervised Clustering)子產品解決這個問題,該子產品将現有聚類算法生成的僞标簽(可能會包含錯誤分類的樣本)看作噪聲樣本,而它的重新訓練過程可以糾正錯誤分類并緩解過度自信的問題。該子產品可以作為其他聚類算法的附加子產品用來提高精度
RUC主要由兩個部分組成:1. extracting clean samples 2. retraining with the refined dataset
作者探索了confidence-based,metric-based,hybrid 三個政策用來過濾掉誤分類的僞标簽
- confidence-based
将原聚類算法給出高置信度的樣本看作幹淨樣本,剔除置信度小的樣本
- metric-based
利用無監督embedding子產品的相似度度量,使用非參數化分類器通過檢查給定的執行個體與k-nearest樣本的label是否相同來檢測幹淨樣本
- hybrid
同時根據兩個方法篩選幹淨樣本
緊接着作者使用半監督方法MixMatch來retrain模型,該方法主要将幹淨樣本看作有标簽資料,不幹淨樣本看作無标簽樣本,同時還采用了smooth label。最後使用co-training模型減少訓練過程中不幹淨樣本的噪聲積累,提高性能
Method
RUC子產品的過程結構圖如下
- Extracting Clean Samples
定義: 為訓練資料集( 為圖檔, 為僞标簽),資料集 可以被分為兩個部分 ( 為幹淨資料)
- Confidence-based strategy
給定訓練樣本 如果 (即屬于某個cluster的置信度高于某個門檻值),則将其加入集合 否則加入集合 。通常門檻值 設得很高,以消除盡可能多的不确定樣本。
- Metric-based strategy
上面方法的缺陷在于其全部依賴于無監督的分類器,本方法利用通過無監督方法(如:SimCLR)訓練的embedding網絡 ,根據僞标簽與使用 得到的分類結果的一緻程度來衡量僞标簽的可信度
對于每個 ,計算其embedding 并且使用基于kNN的無參數分類器得到 ,如果 ,則将其加入 ,否則加入
- Hybrid strategy
如果一個樣本同時滿足上兩個方法,則加入 ,否則加入
2. Retraining via Robust Learning
給定 和 ,下一步是refine分類器 糾正原始無監督聚類算法的錯誤。
- Vanilla semi-supervised learning
作者使用MixMatch作為baseline,該算法從使用MixUp資料增強方法得到的無标簽資料中估計低熵混合标簽(low-entropy mixed label),具體來說,給定從有标簽或無标簽資料集中采樣的一對樣本 ,資料增強操作如下
MixMatch采用一個代理标簽 ,其是銳化後多個增強圖檔上模型預測的平均
經過MixMatch得到 ,半監督模型存在兩個獨立的loss:1. 有标簽資料集 上的交叉熵 2. 無标簽資料集 的一緻性正則化,以下是具體過程
其中 表示 和 之間的交叉熵
- Label Smoothing
在半監督學習模型上使用label smoothing改進模型的預測校準,其label smoothing通過混合均勻分布來實作。
其中 是類别數量, 為噪音
計算soft label 和随機增強後的強增強樣本 的預測标簽之間的交叉熵,我們發現,強增強可以使噪聲樣本的記憶最小化
則最終的訓練優化目标為
- Co-training
單一的網絡存在對不正确的僞标簽過拟合的缺陷,是以加入co-training子產品
子產品中兩個網絡 ,它們平行訓練并且通過在MixMatch基礎上添加co-refinement來交換它們的guesses以便于互相teaching,其中co-refinement是标簽refinement的過程,目标是通過合并兩個網絡的預測結果産生可靠的label。我們在 和 上都進行co-refinement操作,下面是從 的角度(給定一個樣本 ,其原标簽為 )展現co-refinement的過程
其中 為對立網絡關于 的置信度, 為sharpen temperature
對于無标簽資料集 ,使用兩個網絡預測的結果猜測樣本 的僞标簽
其中 為 的第 個弱增強樣本
通過上面操作,co-refinement建構了refined資料集 ,代替了原始資料集 ,則将兩個資料集作為MixMatch的輸入
最後網絡的優化目标為
即,将上面定義的 換成
- Co-refurbishing
在訓練過程中的每個epoch的最後,作者翻新噪聲樣本來得到額外幹淨樣本,如果給定不幹淨樣本 ,至少一個網絡的置信度超過門檻值 ,則用網絡的預測 更新對應樣本的标簽,并且該樣本被認為是幹淨樣本,加入 中
其中 表示 的one-hot編碼(第 個元素值為1, )
整體過程的僞代碼如下
編輯于 03-28