【Deep Clustering】Improving Unsupervised Image Clustering With Robust Learning

Abstract

非監督圖像聚類算法通常是提出一個輔助目标函數間接訓練模型，并且聚類結果受到錯誤的預測和過于自信（overconfidence）的結果的影響，作者通過提出RUC (Robust learning for Unsupervised Clustering)子產品解決這個問題，該子產品将現有聚類算法生成的僞标簽（可能會包含錯誤分類的樣本）看作噪聲樣本，而它的重新訓練過程可以糾正錯誤分類并緩解過度自信的問題。該子產品可以作為其他聚類算法的附加子產品用來提高精度

RUC主要由兩個部分組成：1. extracting clean samples 2. retraining with the refined dataset

作者探索了confidence-based，metric-based，hybrid 三個政策用來過濾掉誤分類的僞标簽

confidence-based

将原聚類算法給出高置信度的樣本看作幹淨樣本，剔除置信度小的樣本

metric-based

利用無監督embedding子產品的相似度度量，使用非參數化分類器通過檢查給定的執行個體與k-nearest樣本的label是否相同來檢測幹淨樣本

hybrid

同時根據兩個方法篩選幹淨樣本

緊接着作者使用半監督方法MixMatch來retrain模型，該方法主要将幹淨樣本看作有标簽資料，不幹淨樣本看作無标簽樣本，同時還采用了smooth label。最後使用co-training模型減少訓練過程中不幹淨樣本的噪聲積累，提高性能

Method

RUC子產品的過程結構圖如下

【Deep Clustering】Improving Unsupervised Image Clustering With Robust Learning

Extracting Clean Samples

定義：為訓練資料集（為圖檔，為僞标簽），資料集可以被分為兩個部分（為幹淨資料）

Confidence-based strategy

給定訓練樣本如果（即屬于某個cluster的置信度高于某個門檻值），則将其加入集合否則加入集合。通常門檻值設得很高，以消除盡可能多的不确定樣本。

Metric-based strategy

上面方法的缺陷在于其全部依賴于無監督的分類器，本方法利用通過無監督方法（如：SimCLR）訓練的embedding網絡，根據僞标簽與使用得到的分類結果的一緻程度來衡量僞标簽的可信度

對于每個，計算其embedding 并且使用基于kNN的無參數分類器得到，如果，則将其加入，否則加入

Hybrid strategy

如果一個樣本同時滿足上兩個方法，則加入，否則加入

2. Retraining via Robust Learning

給定和，下一步是refine分類器糾正原始無監督聚類算法的錯誤。

Vanilla semi-supervised learning

作者使用MixMatch作為baseline，該算法從使用MixUp資料增強方法得到的無标簽資料中估計低熵混合标簽（low-entropy mixed label），具體來說，給定從有标簽或無标簽資料集中采樣的一對樣本，資料增強操作如下

MixMatch采用一個代理标簽，其是銳化後多個增強圖檔上模型預測的平均

經過MixMatch得到，半監督模型存在兩個獨立的loss：1. 有标簽資料集上的交叉熵 2. 無标簽資料集的一緻性正則化，以下是具體過程

其中表示和之間的交叉熵

Label Smoothing

在半監督學習模型上使用label smoothing改進模型的預測校準，其label smoothing通過混合均勻分布來實作。

其中是類别數量，為噪音

計算soft label 和随機增強後的強增強樣本的預測标簽之間的交叉熵，我們發現，強增強可以使噪聲樣本的記憶最小化

則最終的訓練優化目标為

Co-training

單一的網絡存在對不正确的僞标簽過拟合的缺陷，是以加入co-training子產品

子產品中兩個網絡，它們平行訓練并且通過在MixMatch基礎上添加co-refinement來交換它們的guesses以便于互相teaching，其中co-refinement是标簽refinement的過程，目标是通過合并兩個網絡的預測結果産生可靠的label。我們在和上都進行co-refinement操作，下面是從的角度（給定一個樣本，其原标簽為）展現co-refinement的過程

其中為對立網絡關于的置信度，為sharpen temperature

對于無标簽資料集，使用兩個網絡預測的結果猜測樣本的僞标簽

其中為的第個弱增強樣本

通過上面操作，co-refinement建構了refined資料集，代替了原始資料集，則将兩個資料集作為MixMatch的輸入

最後網絡的優化目标為

即，将上面定義的換成

Co-refurbishing

在訓練過程中的每個epoch的最後，作者翻新噪聲樣本來得到額外幹淨樣本，如果給定不幹淨樣本，至少一個網絡的置信度超過門檻值，則用網絡的預測更新對應樣本的标簽，并且該樣本被認為是幹淨樣本，加入中

其中表示的one-hot編碼（第個元素值為1，）

整體過程的僞代碼如下

【Deep Clustering】Improving Unsupervised Image Clustering With Robust Learning

編輯于 03-28

【Deep Clustering】Improving Unsupervised Image Clustering With Robust Learning

Abstract

Method

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告