論文連結:AutoAugment: Learning Augmentation Strategies from Data
CVPR 2019
論文設計了自動搜尋資料增強政策的方法。在限定的資料增強的搜尋空間中采樣出資料增強policy。根據policy對圖像進行變換後輸入訓練 ,把驗證集的acc作為reward資訊回報給增強學習算法,不斷互動,擷取最好效果的policy。
(1)直接在資料集上搜尋
(2)policy遷移到其他資料集也有效(将imagenet policy遷移到FGVC、Stanford Cars 和 FGVC Aircraft)
論文:從資料中學習資料增強政策的方法原則上可以用于任何資料集,而不僅僅是一個資料集。
搜尋算法
增強學習controller RNN:有30 softmax predictions,controller使用policy gradient更新。controller RNN:一層100 個隐藏單元的LSTM,對兩個卷積層2 × 5B個預測(B通常是5)
訓練算法: PPO
采樣增強政策: S S S, S S S包含圖像處理的操作、在每個batch使用操作的機率以及操作的程度。使用 S S S政策,訓練固定的網絡,得到驗證acc R R R被用于更新controller,
the controller samples about 15,000 policies.
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIwczX0xiRGZkRGZ0Xy9GbvNGL2EzXlpXazxCNVRVTycmaOBTT6hFMG1mYw50MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnLyEzMzMjNzcTMxETNwAjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
搜尋空間
搜尋空間: 一個政策包含5個子政策,每個子政策由兩個操作組成。
每個操作有兩個相關超參:選擇操作的機率,操作的程度
下圖展示了一個包含5個子政策的政策應用的例子。注意操作順序
實驗中的操作都來自PIL庫,增加了兩張額外的資料增強Cutout、SamplePairing,aug操作。Identity操作通過prob為0,隐式調用。
一共16種操作(x/y是兩個操作),每個操作都有預設範圍的程度數值,将連續範圍的程度值等間距的離散化為10個數,将操作的機率離散化為11個數,是以每個子政策的搜尋空間大小 ( 16 × 10 × 11 ) 2 (16\times 10\times 11)^2 (16×10×11)2,因為搜尋包含5哥子政策,總空間大小 ( 16 × 10 × 11 ) 10 ≈ 2.9 × 1 0 32 (16\times 10\times 11)^{10} \approx 2.9\times 10^{32} (16×10×11)10≈2.9×1032
Result
policy遷移
該方法類似暴力搜尋,但還是限制了很多條件,例如搜尋時候隻選了5個sub-policy 串連。就算這樣訓練依然需要大量時間(基本都是幾千甚至幾萬GPU hours),因為對于每個資料集需要采樣非常多的資料增廣政策。是以隻能使用小資料集(reduced CIFAR-10)。