天天看點

[NAS]OHL-Auto-Aug

論文題目:Online Hyper-parameter Learning for Auto-Augmentation Strategy

提出一種将自動增強問題 近似為 超參數的優化問題,并且動态地提升自動資料增強的政策的效果。

主要内容:

1、提出線上超參學習方法。将每個增強政策視作一個參數機率分布

2、提出一個雙層結構,允許分布參數能與網絡參數一起訓練

3、提出 OHL-Auto-Aug 動态的改善性能

在雙層結構中,内部目标是優化vanilla train loss,即網絡參數,外部目标是優化 驗證集的準确率,即增強政策的分布參數。兩個目标同時優化,作為整體不用再retraining,計算量減少。

在内部訓練,利用增強采樣,使用SGD訓練網絡參數。

在外部訓練, 利用trajectory 樣本,使用REINFORCE梯度,訓練增強政策分布參數。

在每一步的疊代中,網絡參數中高準确率将broadcasted 到trajectory samples

[NAS]OHL-Auto-Aug

Problem Formulation

自動資料增強到政策是自動的找到一個增強操作集,增加模型的泛化性

  • 将資料增強政策 作為 p θ p_θ pθ​(在增強操作上的機率分布)。
  • 假設有K的候選的增強操作, O k ( ⋅ ) k = 1 : K {O_k (·)}_{k=1:K } Ok​(⋅)k=1:K​
  • 每個操作被選擇的機率是 p θ ( O k ) p_θ (Ok ) pθ​(Ok)
  • 網絡模型 F ( ⋅ , w ) F (·, w) F(⋅,w)
  • 資料增強的目标是:對于 θ θ θ,最大化驗證集的 a c c acc acc;對于模型權重 w w w,最小化訓練 l o s s loss loss。
    [NAS]OHL-Auto-Aug

在外層,在獲得最好的model F ( ⋅ , w ∗ ) F(·,w∗) F(⋅,w∗) ,性能之下,我們尋找參數 θ θ θ。其中 w ∗ w* w∗是内層問題的解。

  • T = 1 , 2 , . . . T m a x T = 1, 2, ...T_{max} T=1,2,...Tmax​ 表示外層更新疊代的steps

    -$ i = 1, 2, …, I$表示内層更新疊代的steps

    外層優化更新一次,内部訓練更新 I I I個steps

  • trajectory ,在T周期中是以的aug操作
    [NAS]OHL-Auto-Aug

對于内層的訓練

[NAS]OHL-Auto-Aug

對于外層的訓練

[NAS]OHL-Auto-Aug

基于REINFORCE 算法,Monte-Carlo 采樣,解決外層訓練優化問題

  • 認為 w T w_T wT​僅與trajectory T 有關
    [NAS]OHL-Auto-Aug
    [NAS]OHL-Auto-Aug
  • 内部訓練,N個網絡同時訓練, N 個采樣 trajectories. T n T_n Tn​ is the n-th trajectory.
    [NAS]OHL-Auto-Aug
    [NAS]OHL-Auto-Aug

候選操作

[NAS]OHL-Auto-Aug

算法流程

[NAS]OHL-Auto-Aug

關鍵點:

1、将aug看出機率分布,避免采樣

2、N個模型,選擇最好的 w t w_t wt​ broadcast

3、優化θ,最大化驗證集 a c c acc acc轉換公式