作者丨派派星
來源丨CVHub
編輯丨極市平台
引言
随着深度學習在計算機視覺的廣泛應用,以卷積神經網絡為代表的深度學習模型取得了突破性的進展。然而,直至今日,盡管提出了以 ViT 為代表的新一代視覺網絡架構,但資料問題仍然是建構深度學習模型最常見的挑戰之一。在實際的應用場景中,足量且高保真的優質資料集通常是可遇不可求的,一方面費錢費時費力不說,由于隐私保護和極端機率問題,資料集的擷取變得尤為困難。是以,一種低成本且有效的方法便是利用資料增強來減少對訓練資料的依賴,進而幫助開發人員更好更快地建構高精度的 AI 模型。
本文的大綱:
- 資料增強的定義
- 資料增強的作用
- 資料增強的方式
資料增強的定義
資料增強通常是依賴從現有資料生成新的資料樣本來人為地增加資料量的過程。這包括對資料進行不同方向的擾動處理或使用深度學習模型在原始資料的潛在空間(latent space)中生成新資料點進而人為的擴充新的資料集。
這裡我們需要區分兩個概念,即增強資料和合成資料:
- 合成資料:指在不使用真實世界圖像的情況下人工生成資料,合成資料可由 GAN 或者現如今大火的 AGI 技術 Diffusion Model 産生;
- 增強資料:從原始圖像派生而來,并進行某種較小的幾何變換(例如翻轉、平移、旋轉或添加噪聲等)或者色彩變換(例如亮度、對比度、飽和度或通道混洗等),以此來增加訓練集的多樣性。
資料增強的作用
省錢 · 省時 · 省心
在實際的應用場景中,資料集的采集、清洗和标注在大多數情況下都是一個非常昂貴且費時費力且乏味的事情。有了資料增強技術,一方面可以減輕相關人員的工作量,另一方面也可以幫助公司削減營運開支。此外,有些資料由于涉及到各種隐私問題可能用錢都買不到,又或者一些異常場景的資料幾乎是極小機率時間,這時候資料增強的優勢便充分的展現出來了。
提升模型性能
衆所周知,卷積神經網絡對平移、視點、大小或光照均具有不變性。是以,CNN 能夠準确地對不同方向的物體進行分類。在深度學習中,CNN 通過對輸入圖像進行卷積運算來學習圖像中的不同特征,進而在計算機視覺任務上表現非常出色。随着 ViT 的提出,一系列 Vision Transformer 模型被提出并被廣泛地應用。然而,無論是 CNN 還是 Transformer,均離不開資料的支援。特别是,當資料量較小時 CNN 容易過拟合,Transformer 則無法學習到良好的表征。
資料增強的方式
資料增強方式大緻可分為兩類:基礎資料增強和進階資料增強。
Image data augmentation taxonomy
基礎資料增強方法
Image Manipulation
圖像處理(Image Manipulation)是指在圖像中對其位置或顔色所做的更改:
- 位置操作是通過調整像素的位置來進行的;
- 顔色操作是通過改變圖像的像素值來進行的。
Overview of the geometric data augmentations
首先介紹下幾何資料增強(Geometric Data Augmentation),它是指對圖像幾何形狀所做的更改。幾何指的是位置,比如以一定角度移動等。這種技術改變了圖像中像素值的位置,例如旋轉、平移和剪切。主要包含以下三種:
- Rotation
旋轉,其讓圖像在 0 到 360 度之間旋轉。此處旋轉度數是一個超參數,應該根據實際需要選擇。舉個例子,就像大家最熟悉的 MNIST 一樣,我們不能旋轉 180 度,不然數字 6 旋轉 180 就變成 9,這就離譜了。
- Translation
平移,它是另一種幾何類型的資料增強,通過向上、向下、向右或向左移動圖像以提供不同的視圖。
- Shearing
錯切,其字面意思是沿軸扭曲圖像。錯切是一種資料增強技術,可以将圖像的一部分向一個方向移動,而另一部分則向相反方向移動。從技術上講,它分為兩類,即沿x軸切和y軸切。對于 x 軸,圖像的頂部沿一個方向移動,底部沿完全相反的方向移動。而在 y 軸中,圖像的左側部分沿一個方向移動,右側部分沿相反方向移動。
Overview of the non-geometric data augmentations
其次,我們為大家介紹下非幾何資料增強(Non-Geometric Data Augmentations),這種增強方式側重于圖像的視覺外觀而不是其幾何形狀。例如噪聲注入、翻轉、裁剪、調整大小和色彩空間操作是均是非幾何增強技術的範疇。下面介紹一些經典的方法:
- Flipping
翻轉,它是一種水準或垂直翻轉圖像的資料增強技術,幾乎會應用在許多視覺任務上。一般來說,我們常用的是水準翻轉,垂直翻轉在大多數情況下會導緻目标歧義,例如一個人翻轉過來就很不協調和自然,當然還是那句話,根據你的實際應用場景調整。
- Cropping and resizing
裁剪,屬于另一種資料增強技術,常用作預處理增強。使用随機裁剪或中心裁剪作為資料增強。該技術會減小圖像的大小,然後執行調整大小以比對圖像的原始大小,同時不會平滑圖像的标簽。
- Noise Injection
注入噪聲是另一種資料增強技術,它有助于神經網絡學習穩健的特征,對抵禦對抗性攻擊非常有幫助。
- Color Space
一般來說,圖像通常是由 RGB 三顔色通道組成的。這裡如果我們單獨操縱每個通道值以控制亮度也是一種資料增強方式,有時也稱為光度增強。這種增強有助于避免模型偏向 lightning 條件。執行顔色空間增強的最簡單方法是隔離任何通道并添加 2 個填充任何随機值或 0 或 255 的通道。顔色空間常用于照片編輯應用程式,即用于控制亮度或暗度。
- Jitter
擾動,是一種通過随機改變圖像的亮度、對比度、飽和度和色調的資料增強方式。對于這四個是超參數,我們應仔細選擇它們的取值範圍。例如,如果我們不小心多度提高了肺部疾病檢測的X光圖像亮度,這會使肺部在X光中變白混雜,對疾病診斷實際是沒有幫助的。
- Kernel Filters
這是一種用來銳化或模糊圖像的資料增強方式。一開始,我們可以滑動大小為 n x n 的視窗 Kernel 或高斯模糊過濾器和邊緣過濾器的矩陣。高斯模糊濾鏡可以使圖像變得更加模糊,而邊緣濾鏡則使圖像的水準或垂直邊緣銳化。
緊接着,我們繼續介紹第三種基于圖像擦除的資料增強方式(Image Erasing Data Augmentations):
Overview of the Mixup, Cutout, and CutMix
- Cutout[1]
Cutout 是通過在訓練期間随機擦除子區域并在圖像中填充 0 或 255 的一種資料增強技術。
- Random erasing[2]
Random erasing examples for different tasks
Random erasing 是一種像剪切一樣随機擦除圖像中子區域的一種增強方式。但它也随機決定是否屏蔽,并決定屏蔽區域的縱橫比和大小。例如,我們可以在人臉識别任務中,通過這項資料增強技術來模拟戴口罩的效果。
- Hide-and-Seek[3]
捉迷藏(Hide-and-Seek)資料增強的關鍵思想是将圖像劃分為随機大小的均勻正方形,并随機删除随機數量的正方形。當重要資訊被隐藏時,它迫使神經網絡學習相關特征。在每個epoch,它都會給出圖像的不同視圖。
An example of Hide-and-Seek augmentation
- GridMask[4]
最後,我們向大家介紹基于網格掩碼的資料增強方式。先前的方法嘗試解決随機删除可能會存在完全擦除對象或删除上下文資訊區域的問題。為了在這些問題之間進行權衡,GridMask 建立統一的掩碼,然後将其應用于圖像,如下圖所示:
GridMask augmentation
此圖顯示了 GridMask 增強的過程,具體的做法是生成一個掩碼,然後将其與輸入圖像相乘。
Image Mixing Data Augmentations
圖像混合資料增強在過去幾年一直是一個熱門話題。圖像混合資料增強是關于将圖像與其他圖像或相同圖像混合。在本文中,我們将其大緻分為兩類,即單圖像混合(Single image mixing)增強和非單圖像混合(Non-single image mixing)增強。
首先,第一部分我們先介紹下基于單圖像混合的資料增強方式。單一圖像混合技術顧名思義便是僅使用一個圖像,并從不同的視角對其進行處理。最近在單圖增強方面做了很多工作,比如LocalAugment、SelfAugmentation、SalfMix等,下面分别為大家介紹下。
- Local Augment[5]
An example of Global and Local Rotation Image
Local Augment,即局部增強的原理是将圖像切分成小塊,并在每個小塊上應用不同類型的資料增強,目的是潛在地改變目标偏差屬性,但産生顯着的局部特征,如上圖所示。雖然這種增強并不主宰全局結構,但提供了非常多樣化的圖像特征,這對于神經網絡以更通用的方式學習局部特征至關重要。
- Self Augmentation[6]
An example of self augmentation
在 Self Augmentation 中,圖像的随機區域會被裁剪并随機粘貼到圖像中,以提高小樣本學習的泛化能力。
- SalfMix[7]
SalfMix 提出的背景主要是關注是否可以泛化基于單圖像混合增強的神經網絡?為此,其思想是找到圖像的第一個顯着部分來決定應該删除哪個部分以及應該複制哪個部分。
Conceptual comparison between SalfMix method and other single image-based data augmentation methods
如上圖所示,SalfMix 是通過顯着性圖将圖像中顯著的區域裁剪出來并放入非顯着區域。
- KeepAugment[8]
This image shows the example of KeepAugment with other augmentations
引入 KeepAugment 是為了防止分布偏移降低神經網絡的性能。KeepAugment 的想法是通過保留圖像的顯着特征和增強非顯着區域來提高保真度。其中,被保留的特征進一步允許在不改變分布的情況下增加多樣性。
- YOCO[9]
An example of YOCO augmentation
YOCO,即You Only Cut Once,它可以從部分資訊中識别對象并提高增強的多樣性,進而鼓勵神經網絡表現得更好。YOCO 制作了兩張圖像,每張都應用了一個增強,然後将每張圖像連接配接成一張圖像。YOCO 易于實作,且不會引入任何參數,同時也易于使用。
- Cut-Thumbnail[10]
Comparison between existing data augmentation methods with CutThumbnail
Cut-Thumbnail,即縮略圖,是一種新穎的資料增強,它将圖像調整到一定的小尺寸,然後用調整後的圖像随機替換圖像的随機區域,旨在減輕網絡的形狀偏差。Cutthumbnail 的優點是它不僅保留了原始圖像,而且在調整後的小圖像中保持全局。
Cut-Thumbnail
此圖像顯示了縮略圖的縮小圖像示例。其方式是将圖像縮小到一定尺寸 112×112 或 56×56 後,盡管丢失了很多局部細節,但圖像中的目标(狗)仍然可以識别。
最後一部分我們向大家介紹非單圖像的混合資料增強(Non-Single Image Mixing Data Augmentations)方式,這塊涉及的内容比較豐富,包括大家所熟悉的 Mixup、CutMix、CopyPaste 等混合增強技術,下面讓我們一起看看吧!
Overview of the Mixup, Cutout, and CutMix
- Mixup[11]
Mixup 是根據混合因子(alpha)來混合任意兩個随機圖像,這些圖像的相應标簽也以相同的方式混合。混合資料增強不僅在準确性方面而且在魯棒性方面都可持續地提高了性能。
- CutMix[12]
CutMix 解決了資訊丢失和區域丢失問題。它的靈感來自 Cutout,其中任何随機區域都用 0 或 255 填充,而在 cutmix 中,不是用 0 或 255 填充随機區域,而是用另一個圖像的更新檔填充該區域。相應地,它們的标簽也根據混合的像素數按比例混合。
- SaliencyMix[13]
An example of SaliencyMix augmentation
SaliencyMix 基本上解決了 Cutmix 的問題,并認為用另一個更新檔填充圖像的随機區域并不能保證更新檔具有豐富的資訊,是以混合未保證更新檔的标簽會導緻模型學習關于圖像的不必要資訊 修補。為了解決這個問題,SaliencyMix 首先選擇圖像的顯着部分并将其粘貼到随機區域或另一幅圖像的顯着或非顯着區域。
SaliencyMix data augmentation procedure
上面這張圖展示了該方法的實作過程。
- Puzzle Mix[14]
Puzzle Mix 提出了一種拼圖混合資料增強技術,該技術側重于靈活地使用圖像的顯着資訊和基本統計資料,目的是打破神經網絡對現有資料增強的誤導監督。
A visual comparison of the mixup methods.
uzzle Mix 確定包含足夠的目标類資訊,同時保留每個樣本的局部統計資訊。
- SnapMix[15]
SnapMix 是一種基于語義比例的混合資料增強,它利用類激活圖來降低标簽噪聲水準。SnapMix 根據實際參與增強圖像的顯着像素建立目标标簽,確定增強圖像和混合标簽之間的語義對應。
A visual Comparison of Mixup, CutMix, and SnapMix
該圖給出了一個基本示例,可以看出,與 CutMix 和 Mixup 相比,SnapMix 生成的标簽在視覺上更符合混合圖像的語義結構。
- FMix[16]
FMix 也是一種混合樣本資料增強(MSDA),利用随機二分類掩碼。這些随機二分類掩碼是通過對從傅立葉空間獲得的低頻圖像應用門檻值來擷取的。一旦獲得掩碼,一個顔色區域将應用于其中一個輸入,另一個顔色區域将應用于另一個輸入。整體流程如下圖所示:
Example masks and mixed images from CIFAR-10 for FMix
- MixMo[17]
MixMo 側重于通過子網絡學習多輸入多輸出。該方法的主要動機是采用更可靠的機制代替直接的隐藏求和操作。MixMo 的具體做法是将 M 個輸入嵌入到共享空間中,将它們混合并将它們傳遞到更深的層進行分類。
This image shows the overview of MixMo augmentation
- StyleMix[18]
StyleMix 針對以前的方法問題,即不區分内容和樣式特征。為了解決這個問題提出了兩種方法 styleMix 和 StyleCutMix,這是第一個非常詳細地分别處理圖像的内容和樣式特征的工作,并且它在流行的基準資料集上顯示出令人印象深刻的性能。
A Visual comparison of StyleMix and StyleCutMix with Mixup and CutMix
- RandomMix[19]
RandomMix 可用于提高模型的泛化能力,它從一組增強中随機選擇混合增強并将其應用于圖像,使模型能夠檢視不同的樣本。整體示範如下圖所示:
An illustrative example of RandomMix
- MixMatch[20]
MixMatch 是一種應用于半監督學習的資料增強技術,其将單個圖像增加 K 次并将所有 K 個圖像傳遞給分類器,對它們的預測進行平均,最後,通過調整它們的分布溫度項來增強它們的預測。
Diagram of the label guessing process used in MixMatch
- ReMixMatch[21]
ReMixMatch 是混合比對的擴充,通過引入分布對齊和增強錨定使先前的工作變得高效。分布對齊任務是使未标記資料的預測邊緣分布接近 ground truth 的邊緣分布,并鼓勵未标記資料的預測邊緣分布接近 ground truth 标簽的邊緣分布。增強錨定将輸入的多個強增強版本提供給模型,并鼓勵每個輸出接近同一輸入的弱增強版本的預測。
ReMixMatch
ReMixMatch 使用弱增強圖像(中間綠色部分)的預測來預測同一圖像(圖中藍色部分)的強增強。
- FixMatch[22]
FixMatch 通過在有限的标記資料上進行訓練,然後使用經過訓練的模型将标簽配置設定給未标記資料。Fixmatch 首先将僞标簽配置設定給機率高于某個門檻值的未标記圖像。該模型被迫對未标記圖像的強增強版本進行預測,以使用交叉熵損失将其預測與僞标簽相比對。
FixMatch
- AugMix[23]
AugMix 是一種簡單有效的資料增強,可減少訓練和測試(未見)資料分布之間的差距。AugMix 操作以相應的随機增強幅度執行,最後,所有這些圖像被合并以生成一個新圖像,該圖像廣泛探索圖像周圍語義等效的輸入空間。
AugMix
如上圖所示,在三個分支中分别進行了三個操作,最後,将所有圖像混合生成新圖像,這有利于提升模型的魯棒性。
- Copy-Paste[24]
Copy-Paste] 隻是将一個圖像的掩碼執行個體複制并粘貼到另一個圖像,其實作起來非常簡單,但效果出衆,特别是對于小目标檢測來說。當然,我們也可以采用 BBox 級的執行個體來實作。
Copy-Paste
上圖展示了兩個圖像的執行個體以不同的比例互相粘貼。
- Mixed-Example[25]
如今,最先進的非标簽保留資料增強技術已經使用兩個示例的線性組合顯示出有希望的結果。Mixed-Example 集中讨論兩個問題:
- 為什麼這些方法有效?
- 若通過提出新的增強,這種線性組合重要嗎?
Mixed-Example
上圖給出了改進的混合示例執行的線性方法和廣義增強的視覺比較。
- RICAP[26]
RICAP,即随機圖像裁剪和修補,是一種新的資料增強技術,它切割和混合四張圖像而不是兩張圖像,并且圖像的标簽也被混合。
A conceptual explanation of the RICAP data augmentation
- CutBlur[27]
CutBlur 探索和分析了現有的超分辨率資料增強技術,并提出了另一種新的資料增強技術,通過切割高分辨率圖像塊并粘貼到相應的低分辨率圖像,反之亦然。Cutblur 在超分辨率方面表現出色。
A visual comparison between High resolution, low resolution and CutBlur
下面是它的實作原理示意圖:
An Schematic illustration of CutBlur operation
- ResizeMix[28]
ResizeMix 是一種将資料與保留的對象資訊和真實标簽混合的資料增強方法,其通過直接以四種不同的方式剪切和粘貼源資料以針對圖像。這裡,四種不同的方式,包括顯着部分、非部分、随機部分或調整源圖像大小來修補,它主要解決了兩個問題:• 如何從源圖像中擷取更新檔?• 将源圖像的更新檔粘貼到目标圖像的什麼位置?
ResizeMix
此外,ResizeMix 發現顯着性資訊對于促進混合資料擴充并不重要。
- ClassMix[29]
ClassMix 是一種用于半監督學習的基于分割的資料增強方法。傳統的資料增強對語義分割并不像圖像分類那樣有效。ClassMix 通過在考慮對象邊界的同時利用網絡預測,通過混合未标記樣本來擴充訓練樣本。
ClassMix
- CDA[30]
CDA,即 Context Decoupling Augmentation,是一種用于弱監督語義分割的上下文解耦增強技術,進而解決 WSSS 領域傳統資料技術性能不佳的問題,這些通過增加相同上下文資料語義樣本不會在對象區分中貢獻太多價值。例如,對于圖像分類任務來說,目辨別别是由于目标本身及其周圍環境,這不鼓勵模型隻關注目前目标,而要結合上下文。
為了打破這一點,CAD 使特定對象出現的位置多樣化,并引導網絡打破對象和上下文資訊之間的依賴關系。在這種情況下,它還提供增強和網絡焦點到對象執行個體而不是對象執行個體和上下文資訊的方式。
CDA
- ObjectAug[31]
ObjectAug 是一種用于語義分割的對象級增強,解決了混合圖像級資料增強政策的問題,以前的政策無法用于分割,因為對象和背景是耦合的,其次對象的邊界由于它們與背景的固定語義聯系而沒有被增強。為了緩解這個問題,首先,它借助語義标簽将對象和背景從圖像中分離出來,然後使用翻轉和旋轉等流行的資料增強技術對每個對象進行增強。由于這些資料增強而導緻的像素變化可以使用圖像修複來恢複。最後,對象和背景耦合以建立增強圖像,進而有效的提升分割的性能。
ObjectAug
進階資料增強
進階資料增強的一個典型代表便是自動資料增強,其目标是從訓練資料中找到資料增強政策。它将尋找最佳增強政策的問題轉化為離散搜尋問題,由搜尋算法和搜尋空間組成,主要包含四部分:
- 基于強化學習的資料增強(Reinforcement learning data augmentation)
- 基于非強化學習的資料增強(Non-Reinforcement learning data augmentation)
- 基于風格遷移的資料增強(Neural Style Transfer)
- 基于特征空間的資料增強(Feature space data augmentations)
下面簡單介紹下這兩部分。
基于強化學習的資料增強
- AutoAugment[32]
AutoAugment 的目标是通過自動搜尋政策找到最好的資料擴充而不是通過手動進行資料擴充。為了解決這個限制,其設計了搜尋空間并具有由許多子政策組成的政策。每個子政策都有兩個參數,一個是圖像處理函數,第二個是機率和大小。這些子政策是使用強化學習作為搜尋算法找到的,整體流程如下所示:
AutoAugment
- Fast Autoaugment[33]
Fast Autoaugment 解決了 AutoAugment 需要花費大量時間才能找到最佳的資料增強政策的問題。該方法的解決方案是通過利用基于密度比對的高效搜尋政策找到更優的資料擴充,進而減少了高階訓練時間。
An overall procedure of augmentation search by Fast AutoAugment algorithm
- Faster AutoAugment[34]
Faster AutoAugment 旨在非常高效地找到有效的資料增強政策,其基于可區分的增強搜尋政策。此外,它不僅為許多具有離散參數的轉換操作估計梯度,而且還提供了一種有效選擇操作的機制。最終,它引入了一個訓練目标函數,旨在最小化原始分布和增廣分布之間的距離,該函數也是可微的。需要注意的是,其增強的參數是在反向傳播期間更新的,整體流程圖定義如下:
An Overview of the Faster AutoAugment augmentation
- RAD[35]
RAD,即增強資料強化學習,其易于插入有效提升了強化學習算法的性能。RAD 主要考慮兩個問題:
- 學習資料效率;
- 新環境的泛化能力;
此外,它表明傳統的資料增強技術使 RL 算法能夠在基于像素的控制和基于狀态的控制方面勝過複雜的 SOTA 任務,下面是它的總體流程圖:
An overview of different augmentation investigated in RAD
- MARL[36]
MARL,即多代理強化學習,是一種基于多代理協作的局部更新檔自動增強方法,這是第一個使用強化學習找到更新檔級别資料增強政策的方法。MARL 首先将圖像分成小塊,然後共同為每個小塊找到最佳資料增強政策.
An Illustration of different automated augmentation policies for MARL
- LDAS[37]
LDAS 建議使用自動增強來學習目标檢測的最佳政策。它解決了目标檢測增強的兩個關鍵問題:
- 分類學習政策不能直接應用于檢測任務,如果應用幾何增強,它會增加處理邊界框的複雜性;
- 與設計新的網絡架構相比,資料增強增加的價值要少得多,是以受到的關注較少,但應謹慎選擇用于目标檢測的增強
下圖展示了基于此資料擴充的一些子政策:
Different data augmentation sub-policies explored
- [Scale-Aware Automatic Augmentation](https://arxiv.org/abs/2103.17220 "Scale-Aware Automatic Augmentation"
,即Scale-Aware Automatic Augmentation,是一種用于目标檢測的資料增強政策。首先,它定義了一個搜尋空間,其中圖像級和框級資料增強為尺度不變性做好了準備;其次,這項工作還提出了一種新的搜尋度量,名為有效且高效地搜尋增強的帕累托比例平衡。
Example of scale-aware search space which includes image level and box-level augmentation
- ADA[38]
ADA 提供了一種系統的方法來從目标檢測的角度找到資料增強的最佳對抗性擾動,該方法基于資料的博弈論解釋,即納什均衡。納什均衡提供了最佳邊界框預測器和資料擴充的最佳設計。最優對抗性擾動是指 ground truth 的最差擾動,它迫使框預測器從最困難的樣本分布中學習。
Adversarial augmentation
從上圖可以看出,ADA 偏向于選擇盡可能與 GT 不同但又包含關鍵對象特征的邊界框。
- Deep CNN Ensemble[39]
Deep CNN Ensemble 提出了一種新的 R-CNN 模型變體,在訓練和評估方面進行了兩個核心修改。首先,它使用幾個不同的 CNN 模型作為 R-CNN 中的內建器,其次,它通過從 Microsoft COCO 資料集中選擇與 PASCAL VOC 一緻的子集,巧妙地用 Microsoft COCO 資料增強 PASCAL VOC 訓練示例。原理圖如下所示:
The proposed schematic diagram
- RADA[40]
通過對抗性學習可以擷取穩健而準确的目标檢測,先前方法展示了當對目标檢測任務進行微調時分類器性能從不同的資料增強中獲得增益,并且在準确性和穩健性方面的性能沒有提高。RADA 提供了一種探索對抗性樣本的獨特方法,有助于提高性能。為此,它在目标檢測器的微調階段通過探索對抗性樣本來增強示例,這被認為是依賴于模型的資料增強。
首先,它從檢測器分類和定位層中選擇更強的對抗樣本,這些樣本會随着檢測器的變化而變化,以確定增強政策保持一緻。該方法在不同目标檢測任務的準确性和魯棒性方面顯示出顯着的性能提升:
RADA
上圖分别展示了 RADA 分别提高了目标檢測器在幹淨圖像上的準确性、檢測器對自然損壞的魯棒性以及對跨資料集域偏移的魯棒性。
- PTDA[41]
PTDA,即 Pespective Transformation Data Augmentation,同樣也是一種用于目标檢測的新資料增強,簡稱為透視變換,它可以生成以不同角度捕獲的新圖像。是以,它模仿圖像,就好像它們是在相機無法捕獲這些圖像的特定角度拍攝的一樣。該方法在多個目标檢測資料集上顯示出有效性。
- DADA[42]
DADA,Deep Adversarial Data Augmentation,即深度對抗性資料增強,它将資料增強被表述為訓練類條件和監督 GAN 的問題。此外,它還引入了新的鑒别器損失,目的是保證資料擴充是真實的,并且擴充樣本被迫平等參與并在尋找決策邊界時保持一緻。
基于非強化學習的資料增強
- RandAugment
以前的最佳增強方法大都是一些使用強化學習或一些複雜的學習政策,是以需要花費大量時間才能找到合适的增強方法和确定增強因子。這些方法消除了單獨搜尋階段的障礙,這使得訓練更加複雜,進而增加了計算成本開銷。為了打破這一點,RandAugment 是一種新的資料增強方法,比 AutoAugment 簡單又好用。主要思想是随機選擇變換,并調整它們的大小:
Example images augmented by RandAugment
基于風格遷移的資料增強
基于風格遷移的資料增強是一種獨特的資料增強方式,可以在不改變高層語義的情況下将一幅圖像的藝術風格轉移到另一幅圖像。它為訓練集帶來了更多多樣性。這種神經風格遷移的主要目标是從兩張圖像生成第三張圖像,其中一張圖像提供紋理内容,另一張圖像提供進階語義内容。下面介紹一些常見的應用。
- STaDA[43]
STaDA,Style Transfer as Data Augmentation,顧名思義便是基于風格遷移的資料增強方法,這是一種徹底評估了不同的 SOTA 神經風格轉移算法作為圖像分類任務的資料增強。此外,它還将神經風格遷移算法與傳統的資料增強方法相結合,下面給出相關的示意圖:
Overview of the original image and two stylized images by STaDA
- NSTDA[44]
NSTDA,Neural Style Transfer as Data Augmentation,是一種将神經風格遷移作為改進 COVID-19 診斷分類的資料增強方法。這項工作顯示了循環生成對抗網絡的有效性,該網絡主要用于神經風格遷移,增強 COVID-19 負 x 射線圖像以轉換為正 COVID 圖像以平衡資料集并增加資料集的多樣性。該方法充分表明了使用 Cycle GAN 增強圖像可以提高幾種不同 CNN 架構的性能。
Overview of generating synthetic covid images from the healthy category
- SA[45]
這項工作提出了一種新的資料增強,稱為基于風格神經轉移的風格增強。SA 随機化顔色、對比度和紋理,同時在訓練期間保持形狀和語義内容。這是通過選擇任意樣式傳輸網絡來随機化樣式并從多元正态分布嵌入中擷取目标樣式來完成的。它提高了三個不同任務的性能:分類、回歸和域适應。
Overview of Style augmentation applied to an image
從上圖可以明顯的看出,基于 SA 的資料增強方式可以将形狀保留下來,但樣式(包括顔色、紋理和對比度)是随機的。
- StyPath[46]
StyPath 是一種用于穩健組織學圖像分類的風格遷移資料增強政策,旨在減少偏見的風格。
StyPath
- AS[47]
這項工作介紹了一種基于深度神經網絡的人工系統,可生成具有高感覺品質的藝術圖像。AS 建立神經嵌入,然後使用嵌入來分離圖像的風格和内容,最後再重新組合目标圖像的内容和風格以生成藝術圖像。
Overview of the styled image by neural algorithm
基于特征空間的資料增強
基于特征空間的資料增強首先将圖像轉換為嵌入或表示,然後對圖像的嵌入執行資料增強,最後再向大家介紹下這部分内容。
- Dataset Augmentation in Feature Space[48]
這項工作首先使用編碼器-解碼器來學習表示,然後在表示上應用不同的變換,例如添加噪聲、插值或外推。所提出的方法已經顯示出靜态和順序資料的性能改進。
Overview of interpolation and extrapolation between handwritten characters
- Feature Space Augmentation for Long-Tailed Data
該方法提出了基于特征空間中的新資料增強,以解決長尾問題并提升代表性不足的類樣本。所提出的方法首先在類激活圖的幫助下将類特定特征分為通用特征和特定特征。代表性不足的類樣本是通過将代表性不足的類的類特定特征與來自其他混淆類的類通用特征注入而生成的。這使得資料多樣化,也解決了代表性不足的類别樣本的問題。
Left: limited but well-spread data. Right: Without sufficient data
- Adversarial Feature Augmentation for Unsupervised Domain Adaptation[49]
生成對抗網絡在無監督域适應中顯示出可喜的結果,以學習與源域無法區分的目标域特征。這項工作擴充了 GAN 以強制特征提取器成為域不變的,并通過特征空間中的資料增強來訓練它,稱為特征增強。總的來說,該工作探索了 GAN 在特征層面的資料增強。
- FeatMatch[50]
FeatMatch 提出了一種新的 SSL 特征空間資料增強方法,其靈感來自基于圖像的 SSL 方法,該方法結合了圖像增強和一緻性正則化。基于圖像的 SSL 方法僅限于傳統的資料增強。為了打破這一目标,基于特征的 SSL 方法從複雜的資料擴充中産生了不同的特征。一個關鍵點是,這些進階資料增強利用了通過聚類提取的類内和類間表示的資訊。所提出的方法僅在 min-Imagenet 上顯示出顯着的性能增益,例如在 miniImageNet 上絕對增益 17.44%,而且還顯示了對分布外樣本的魯棒性。此外,圖像級和特征級增強和一緻性之間的差異如下圖所示:
An overview of featMatch augmentation applied on images and features
References
- [1]Advanced Data Augmentation Approaches: https://arxiv.org/pdf/2301.02830.pdf
- [2]Cutout: https://arxiv.org/abs/1708.04552
- [3]Random erasing: https://arxiv.org/abs/1708.04896
- [4]Hide-and-Seek: https://arxiv.org/abs/1811.02545
- [5]GridMask: https://arxiv.org/abs/2001.04086
- [6]Local Augment: https://ieeexplore.ieee.org/document/9319662
- [7]Self Augmentation: https://arxiv.org/pdf/2004.00251.pdf
- [8]SalfMix: https://www.mdpi.com/1424-8220/21/24/8444
- [9]KeepAugment: https://arxiv.org/abs/2011.11778
- [10]YOCO: https://arxiv.org/abs/2201.12078
- [11]Cut-Thumbnail: https://arxiv.org/abs/2103.05342
- [12]Mixup: https://arxiv.org/abs/1710.09412
- [13]CutMix: https://arxiv.org/abs/1905.04899
- [14]SaliencyMix: https://arxiv.org/abs/2006.01791
- [15]Puzzle Mix: https://arxiv.org/abs/2009.06962
- [16]SnapMix: https://arxiv.org/abs/2012.04846
- [17]FMix: https://arxiv.org/abs/2002.12047
- [18]MixMo: https://arxiv.org/abs/2103.06132
- [19]StyleMix: https://openaccess.thecvf.com/content/CVPR2021/papers/Hong_StyleMix_Separating_Content_and_Style_for_Enhanced_Data_Augmentation_CVPR_2021_paper.pdf
- [20]RandomMix: https://arxiv.org/abs/2205.08728
- [21]MixMatch: https://arxiv.org/abs/1905.02249
- [22]ReMixMatch: https://arxiv.org/abs/1911.09785
- [23]FixMatch: https://arxiv.org/abs/2001.07685
- [24]AugMix: https://arxiv.org/abs/1912.02781
- [25]Copy-Paste: https://arxiv.org/abs/2012.07177
- [26]Mixed-Example: https://arxiv.org/abs/1805.11272
- [27]RICAP: https://arxiv.org/abs/1811.09030
- [28]CutBlur: https://arxiv.org/abs/2004.00448
- [29]ResizeMix: https://arxiv.org/abs/2012.11101
- [30]ClassMix: https://arxiv.org/abs/2007.07936
- [31]Context Decoupling Augmentation: https://arxiv.org/abs/2103.01795
- [32]ObjectAug: https://arxiv.org/abs/2102.00221
- [33]AutoAugment: https://arxiv.org/abs/1805.09501
- [34]Fast Autoaugment: https://arxiv.org/abs/1905.00397
- [35]Faster AutoAugment: https://arxiv.org/abs/1911.06987
- [36]Reinforcement Learning with Augmented Data: https://arxiv.org/abs/2004.14990
- [37]MARL: https://arxiv.org/pdf/2105.00310.pdf
- [38]Learning Data Augmentation Strategies for Object Detection: https://arxiv.org/abs/1906.11172
- [39]Adversarial augmentation: https://ieeexplore.ieee.org/abstract/document/8658998
- [40]Deep CNN Ensemble with Data Augmentation for Object Detection: https://arxiv.org/abs/1506.07224
- [41]RADA: https://arxiv.org/abs/2112.02469
- [42]PTDA: https://ieeexplore.ieee.org/document/8943416
- [43]DADA: https://arxiv.org/abs/1809.00981
- [44]STaDA: https://arxiv.org/abs/1909.01056
- [45]NSTDA: https://link.springer.com/article/10.1007/s42979-021-00795-2
- [46]SA: https://arxiv.org/abs/1809.05375
- [47]StyPath: https://arxiv.org/abs/2007.05008
- [48]AS: https://arxiv.org/abs/1508.06576
- [49]Dataset Augmentation in Feature Space: https://arxiv.org/abs/1702.05538
- [50]Adversarial Feature Augmentation: https://arxiv.org/abs/1711.08561
- [51]FeatMatch: https://arxiv.org/abs/2007.0850