yolov4源碼_YOLOV4知識點分析（一）

YOLOV4知識點分析（一）

簡介 yolov4論文

：YOLOv4: Optimal Speed and Accuracy of Object Detection

arxiv

：https://arxiv.org/abs/2004.10934

github源碼

：https://github.com/AlexeyAB/darknet

YOLOV4的釋出，可以想象到大家的激動，但是

論文其實是一個結合了大量前人研究技術，加以組合并進行适當創新的高水準論文，實作了速度和精度的完美平衡

。很多yolov4的分析文章都會說其中應用了哪些技術？但是暫時沒有看到對其中用到的各種技術進行詳細分析的文章，本文的目的就是如此，希望通過YOLOV4提到的各種新技術進行分析，明白YOLOV4後面的功臣算法。

文中将前人的工作主要分為Bag of freebies和Bag of specials，前者是指不會顯著影響模型測試速度和模型複雜度的技巧，主要就是資料增強操作，對應的Bag of specials就是會稍微增加模型複雜度和速度的技巧，但是如果不大幅增加複雜度且精度有明顯提升，那也是不錯的技巧。本文按照論文講的順序進行分析。由于每篇論文其實内容非常多，主要是分析思想和一些核心細節。

本篇文章分析如下技術： random erasing、cutout、hide-and-seek、grid mask、Adversarial Erasing、mixup、cutmix、mosaic、Stylized-ImageNet、label smooth、dropout和dropblock
。

1.
資料增強相關-Random erasing data augmentation

論文名稱：Random erasing data augmentation

論文位址：https://arxiv.org/pdf/1708.04896v2.pdf

github: https://github.com/zhunzhong07/Random-Erasing

随機擦除增強，非常容易了解。作者提出的目的主要是模拟遮擋，進而提高模型泛化能力，這種操作其實非常make sense，因為

把物體遮擋一部分後依然能夠分類正确，那麼肯定會迫使網絡利用局部未遮擋的資料進行識别，加大了訓練難度，一定程度會提高泛化能力

。其也可以被視為add noise的一種，并且與随機裁剪、随機水準翻轉具有一定的互補性，綜合應用他們，可以取得更好的模型表現，尤其是對噪聲和遮擋具有更好的魯棒性。具體操作就是：

随機選擇一個區域，然後采用随機值進行覆寫，模拟遮擋場景

。

yolov4源碼_YOLOV4知識點分析（一）

在細節上，可以通過參數控制擦除的面積比例和寬高比，如果随機到指定數目還無法滿足設定條件，則強制傳回。

一些可視化效果如下：

yolov4源碼_YOLOV4知識點分析（一）

對于目标檢測，作者還實作了3種做法，如下圖所示(開源代碼，隻實作了分類的随機擦除)。

yolov4源碼_YOLOV4知識點分析（一）

當然随機擦除可以和其他資料增強聯合使用，如下所示。

yolov4源碼_YOLOV4知識點分析（一）

torchvision已經實作了：

https://pytorch.org/docs/master/_modules/torchvision/transforms/transforms.html#RandomErasing

注意：torchvision的實作僅僅針對分類而言，如果想用于檢測，還需要自己改造。調用如下所示：

torchvision.transforms.RandomErasing(p=0.5, scale=(0.02, 0.33), ratio=(0.3, 3.3), value=0, inplace=False)

2. 資料增強相關-Cutout

論文名稱：Improved Regularization of Convolutional Neural Networks with Cutout

論文位址：https://arxiv.org/abs/1708.04552v2

github: https://github.com/uoguelph-mlrg/Cutout

出發點和随機擦除一樣，也是模拟遮擋，目的是提高泛化能力，實作上比random erasing簡單，

随機選擇一個固定大小的正方形區域，然後采用全0填充就OK了

，當然為了避免填充0值對訓練的影響，應該要對資料進行中心歸一化操作，norm到0。

本文和随機擦除幾乎同時發表，難分高下(不同場景下誰好難說)，差別在于

在cutout中，擦除矩形區域存在一定機率不完全在原圖像中的。而在Random Erasing中，擦除矩形區域一定在原圖像内。Cutout變相的實作了任意大小的擦除，以及保留更多重要區域

。

需要注意的是作者發現

cutout區域的大小比形狀重要

，是以cutout隻要是正方形就行，非常簡單。具體操作是利用固定大小的矩形對圖像進行遮擋，在矩形範圍内，所有的值都被設定為0，或者其他純色值。而且擦除矩形區域存在一定機率不完全在原圖像中的（文中設定為50%）

論文中有一個細節可以看看：作者其實開發了一個早期做法，具體是：

在訓練的每個epoch過程中，儲存每張圖檔對應的最大激活特征圖(以resnet為例，可以是layer4層特征圖)，在下一個訓練回合，對每張圖檔的最大激活圖進行上采樣到和原圖一樣大，然後使用門檻值切分為二值圖，蓋在原圖上再輸入到cnn中進行訓練，有點自适應的意味

。但是有個小疑問：訓練的時候不是有資料增強嗎？下一個回合再用前一次增強後的資料有啥用？我不太清楚作者的實作細節。如果是驗證模式下進行到是可以。

這種做法效果蠻好的，但是最後發現這種方法和随機選一個區域遮擋效果差别不大，而且帶來了額外的計算量，得不償失，便舍去。就變成了現在的cutout了。

可能和任務有關吧，按照我的了解，早期做法非常make sense，效果居然和cutout一樣，比較奇怪。并且實際上考慮目标檢測和語義分割，應該還需要具體考慮，不能照搬實作。

學習這類論文我覺得最重要的是思想，能不能推廣到不同領域上面？是否可以在訓練中自适應改變？是否可以結合特征圖聯合操作？

yolov4源碼_YOLOV4知識點分析（一）

資料增強相關-Hide-and-Seek

論文名稱：Hide-and-Seek: A Data Augmentation Technique for Weakly-Supervised Localization and Beyond

論文位址：https://arxiv.org/abs/1811.02545

github位址:https://github.com/kkanshul/Hide-and-Seek

可以認為是random earsing的推廣。核心思想就是去掉一些區域，使得其他區域也可以識别出物體，增加特征可判别能力。和大部分細粒度論文思想類型，如下所示：

yolov4源碼_YOLOV4知識點分析（一）

資料增強僅僅用于訓練階段，測試還是整圖，不遮擋，如下所示。

yolov4源碼_YOLOV4知識點分析（一）

做法是

将圖檔切分為sxs個網格，每個網格采用一定機率進行遮擋，可以模拟出随機擦除和cutout效果

。

至于隐藏值設定為何值，作者認為比較關鍵

，因為可能會改變訓練資料的分布。如果暴力填黑，認為會出現訓練和測試資料分布不一緻問題，可能不好，特别是對于第一層卷積而言。作者采用了一些理論計算，最後得到采用整個資料集的均值來填充造成的影響最小(如果采用均值，那麼輸入網絡前，資料預處理減掉均值，那其實還是接近0)。

4. 資料增強相關-GridMask Data Augmentation

論文名稱：GridMask Data Augmentation

論文位址：https://arxiv.org/abs/2001.04086v2

本文可以認為是前面3篇文章的改進版本。本文的出發點是：删除資訊和保留資訊之間要做一個平衡，而随機擦除、cutout和hide-seek方法都可能會出現可判别區域全部删除或者全部保留，引入噪聲，可能不好。如下所示：

yolov4源碼_YOLOV4知識點分析（一）

要實作上述平衡，作者發現非常簡單，隻需要結構化drop操作，例如均勻分布似的删除正方形區域即可。并且可以通過密度和size參數控制，達到平衡。如下所示：

yolov4源碼_YOLOV4知識點分析（一）

其包括4個超參，如下所示：

yolov4源碼_YOLOV4知識點分析（一）

首先定義k，即圖像資訊的保留比例，其中H和W分别是原圖的高和寬，M是保留下來的像素數，保留比例k如下，該參數k和上述的4個參數無直接關系，但是該參數間接定義了r：

yolov4源碼_YOLOV4知識點分析（一）

d決定了一個dropped square的大小，參數 x和 y的取值有一定随機性.

yolov4源碼_YOLOV4知識點分析（一）

其實看起來，就是兩個參數:

r和d，r通過k計算而來，用于計算保留比例(核心參數)，d用了控制每個塊的大小。d越大，每個黑色塊面積就越大，黑色塊的個數就越少，d越小，黑色塊越小，個數就越多。xy僅僅用于控制第一個黑色塊的偏移而已。

對于應用機率的選擇，可以采用固定值或者線性增加操作，作者表示

線性增加會更好

，例如首先選擇r = 0.6，然後随着訓練epoch的增加，機率從0增加到0.8，達到240th epoch後固定，這種操作也是非常make sense，為了模拟更多場景，在應用于圖檔前，還可以對mask進行旋轉。這種政策當然也可以應用于前3種資料增強政策上。

資料增強相關-object Region Mining with Adversarial Erasin

論文位址：https://arxiv.org/pdf/1703.08448.pdf

本文在yolov4中僅僅是提了一下，不是重點，但是覺得思想不錯，是以還是寫一下。

本文要解決的問題是使用分類做法來做分割任務(弱監督分割)，思想比較有趣。如下所示：

yolov4源碼_YOLOV4知識點分析（一）

通過疊代訓練的方式不斷挖掘不同的可判别區域，最終組合得到完整的分割結果。第t次訓練疊代(一次疊代就是指的一次完整的訓練過程)，對于每張圖檔都可以得到cam圖(類别激活圖)，将cam圖二值化然後蓋在原圖上，進行下一次疊代訓練，每次疊代都是學習一個不同的可判别區域，疊代結束條件就是分類性能不行了，因為可判别區域全部被蓋住了(由于該參數其實很難設定，故實驗直接取3)。最後的分割結果就是多次疊代的cam圖疊加起來即可。

本文是cvpr2017的論文，放在現在來看，做法其實超級麻煩，現在而言我肯定直接采用細粒度方法，采用特征擦除技術，端到端訓練，學習出所有可判别區域。應該不會比這種做法效果差，但是在當時還是不錯的思想。

但是其也提供了一種思路：

是否可以采用分類預測出來的cam，結合弱監督做法，把cam的輸出也引入某種監督，在提升分類性能的同時，提升可判别學習能力。

yolov4源碼_YOLOV4知識點分析（一）

本篇文章分析如下技術： random erasing、cutout、hide-and-seek、grid mask、Adversarial Erasing、mixup、cutmix、mosaic、Stylized-ImageNet、label smooth、dropout和dropblock
。

1.
資料增強相關-Random erasing data augmentation

2. 資料增強相關-Cutout

繼續閱讀

yolov4源碼_【CV】YOLOv4最全複現代碼合集（含PyTorch/TF/Keras和Caffe等）

yolov4源碼_YOLOV4知識點分析（一）

本篇文章分析如下技術： random erasing、cutout、hide-and-seek、grid mask、Adversarial Erasing、mixup、cutmix、mosaic、Stylized-ImageNet、label smooth、dropout和dropblock 。 1. 資料增強相關-Random erasing data augmentation

2. 資料增強相關-Cutout

繼續閱讀

本篇文章分析如下技術： random erasing、cutout、hide-and-seek、grid mask、Adversarial Erasing、mixup、cutmix、mosaic、Stylized-ImageNet、label smooth、dropout和dropblock
。

1.
資料增強相關-Random erasing data augmentation