[NAS]OHL-Auto-Aug

論文題目：Online Hyper-parameter Learning for Auto-Augmentation Strategy

提出一種将自動增強問題 近似為 超參數的優化問題，并且動态地提升自動資料增強的政策的效果。

主要内容：

1、提出線上超參學習方法。将每個增強政策視作一個參數機率分布

2、提出一個雙層結構，允許分布參數能與網絡參數一起訓練

3、提出 OHL-Auto-Aug 動态的改善性能

在雙層結構中，内部目标是優化vanilla train loss,即網絡參數，外部目标是優化驗證集的準确率，即增強政策的分布參數。兩個目标同時優化，作為整體不用再retraining，計算量減少。

在内部訓練，利用增強采樣，使用SGD訓練網絡參數。

在外部訓練，利用trajectory 樣本，使用REINFORCE梯度，訓練增強政策分布參數。

在每一步的疊代中，網絡參數中高準确率将broadcasted 到trajectory samples

[NAS]OHL-Auto-Aug

自動資料增強到政策是自動的找到一個增強操作集，增加模型的泛化性

将資料增強政策作為 p θ p_θ pθ（在增強操作上的機率分布）。
假設有K的候選的增強操作, O k ( ⋅ ) k = 1 : K {O_k (·)}_{k=1:K } Ok(⋅)k=1:K
每個操作被選擇的機率是 p θ ( O k ) p_θ (Ok ) pθ(Ok)
網絡模型 F ( ⋅ , w ) F (·, w) F(⋅,w)
資料增強的目标是：對于 θ θ θ，最大化驗證集的 a c c acc acc；對于模型權重 w w w，最小化訓練 l o s s loss loss。

[NAS]OHL-Auto-Aug

在外層，在獲得最好的model F ( ⋅ , w ∗ ) F(·,w∗) F(⋅,w∗) ,性能之下，我們尋找參數 θ θ θ。其中 w ∗ w* w∗是内層問題的解。

T = 1 , 2 , . . . T m a x T = 1, 2, ...T_{max} T=1,2,...Tmax 表示外層更新疊代的steps

-$ i = 1, 2, …, I$表示内層更新疊代的steps

外層優化更新一次，内部訓練更新 I I I個steps
trajectory ，在T周期中是以的aug操作

[NAS]OHL-Auto-Aug

對于内層的訓練

[NAS]OHL-Auto-Aug

對于外層的訓練

[NAS]OHL-Auto-Aug

基于REINFORCE 算法，Monte-Carlo 采樣,解決外層訓練優化問題

認為 w T w_T wT僅與trajectory T 有關

[NAS]OHL-Auto-Aug

[NAS]OHL-Auto-Aug
内部訓練，N個網絡同時訓練， N 個采樣 trajectories. T n T_n Tn is the n-th trajectory.

[NAS]OHL-Auto-Aug

[NAS]OHL-Auto-Aug

候選操作

[NAS]OHL-Auto-Aug

算法流程

[NAS]OHL-Auto-Aug

關鍵點：

1、将aug看出機率分布，避免采樣

2、N個模型，選擇最好的 w t w_t wt broadcast

3、優化θ，最大化驗證集 a c c acc acc轉換公式

繼續閱讀