論文題目:Online Hyper-parameter Learning for Auto-Augmentation Strategy
提出一種将自動增強問題 近似為 超參數的優化問題,并且動态地提升自動資料增強的政策的效果。
主要内容:
1、提出線上超參學習方法。将每個增強政策視作一個參數機率分布
2、提出一個雙層結構,允許分布參數能與網絡參數一起訓練
3、提出 OHL-Auto-Aug 動态的改善性能
在雙層結構中,内部目标是優化vanilla train loss,即網絡參數,外部目标是優化 驗證集的準确率,即增強政策的分布參數。兩個目标同時優化,作為整體不用再retraining,計算量減少。
在内部訓練,利用增強采樣,使用SGD訓練網絡參數。
在外部訓練, 利用trajectory 樣本,使用REINFORCE梯度,訓練增強政策分布參數。
在每一步的疊代中,網絡參數中高準确率将broadcasted 到trajectory samples
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIwczX0xiRGZkRGZ0Xy9GbvNGL2EzXlpXazxCNVRVTycmaOBTT6hFMG1mYw50MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL5MDOxUDO1YTMwMzMwAjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
Problem Formulation
Problem Formulation
自動資料增強到政策是自動的找到一個增強操作集,增加模型的泛化性
- 将資料增強政策 作為 p θ p_θ pθ(在增強操作上的機率分布)。
- 假設有K的候選的增強操作, O k ( ⋅ ) k = 1 : K {O_k (·)}_{k=1:K } Ok(⋅)k=1:K
- 每個操作被選擇的機率是 p θ ( O k ) p_θ (Ok ) pθ(Ok)
- 網絡模型 F ( ⋅ , w ) F (·, w) F(⋅,w)
- 資料增強的目标是:對于 θ θ θ,最大化驗證集的 a c c acc acc;對于模型權重 w w w,最小化訓練 l o s s loss loss。
[NAS]OHL-Auto-Aug
在外層,在獲得最好的model F ( ⋅ , w ∗ ) F(·,w∗) F(⋅,w∗) ,性能之下,我們尋找參數 θ θ θ。其中 w ∗ w* w∗是内層問題的解。
-
T = 1 , 2 , . . . T m a x T = 1, 2, ...T_{max} T=1,2,...Tmax 表示外層更新疊代的steps
-$ i = 1, 2, …, I$表示内層更新疊代的steps
外層優化更新一次,内部訓練更新 I I I個steps
- trajectory ,在T周期中是以的aug操作
[NAS]OHL-Auto-Aug
對于内層的訓練
對于外層的訓練
基于REINFORCE 算法,Monte-Carlo 采樣,解決外層訓練優化問題
- 認為 w T w_T wT僅與trajectory T 有關
[NAS]OHL-Auto-Aug [NAS]OHL-Auto-Aug - 内部訓練,N個網絡同時訓練, N 個采樣 trajectories. T n T_n Tn is the n-th trajectory.
[NAS]OHL-Auto-Aug [NAS]OHL-Auto-Aug
候選操作
算法流程
關鍵點:
1、将aug看出機率分布,避免采樣
2、N個模型,選擇最好的 w t w_t wt broadcast
3、優化θ,最大化驗證集 a c c acc acc轉換公式