論文閱讀筆記: 2016 ECCV Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

部落格位址

論文位址

Github位址

論文閱讀筆記 2016 ECCV Temporal Segment Networks Towards Good Practices for Deep Action Recognition
- 主要思想
- 網絡結構
  - 正則化技術
  - 資料增強
- 測試網絡
- 相關實驗
- Temporal Segment Networks
  - 配置安裝
  - Demo testing
  - Demo training
  - Demo 單視訊測試

本部落客要學習介紹2016 ECCV的一篇文章，這篇文章用于行為識别，來自瑞士蘇黎世聯邦理工大學計算機視覺實驗室

主要思想

設計了一個時間分割網絡 Temporal Segment Network（TSN）,一種特定的基于長範圍時間結構的用于視訊動作識别的網絡。模型結合了稀疏時間采樣政策和視訊等級監督方法，可以使用整體的動作視訊進行便捷和有效的學習。

實驗結果:在HMDB51（69.4%）和UCF101（94.2%）資料集上達到了目前最好的性能。

解決問題:如何設計一種有效的基于視訊的網絡結構能夠學習視訊的表現進而捕捉 long-range 時間結構。如何在有限的訓練樣本下學習卷積神經網絡模型。

網絡結構

論文閱讀筆記: 2016 ECCV Temporal Segment Networks: Towards Good Practices for Deep Action Recognition論文閱讀筆記: 2016 ECCV Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

對于一個輸入的視訊，将被分成K(k=3)個segments，從每個segment中随機地選擇一個short snippet。将選擇的snippets通過two-stream卷積神經網絡得到不同snippets的class scores,最後将它們融合。不同片段的類别得分采用段共識函數（The segmental consensus function）進行融合來産生段共識（segmental consensus），這是一個視訊級的預測。然後對所有模式的預測融合産生最終的預測結果。(這種方法大大降低了計算開銷)

網絡的具體思路:實驗中設定片段的數量為 3;從每個序列中随機采樣得到片段序列,随後輸入卷積網絡得到對應的得分,運用平均均值的聚合方法推斷類别得分,獲得相應的結果(使用Softmax函數);使用标準分類交叉熵損失（cross-entropy loss）,随機梯度下降法(SGD)訓練網絡.

我們選擇 Batch Normalization（BN）-Inception 結構設計 two-stream 卷積神經網絡，由于它在準确率和效率之間有比較好的平衡。空間 stream 卷積神經網絡作用在 single RGB images，時間 stream 卷積神經網絡以 stacked optical flow field 作為輸入。

正則化技術

在學習過程中，Batch Normalization 将估計每個 batch 内的激活均值和方差，并使用它們将這些激活值轉換為标準高斯分布。這一操作雖可以加快訓練的收斂速度，但由于要從有限數量的訓練樣本中對激活分布的偏移量進行估計，也會導緻過拟合問題。是以，在用預訓練模型初始化後，當機所有 Batch Normalization 層的均值和方差參數，但第一個标準化層除外。由于光流的分布和 RGB 圖像的分布不同，第一個卷積層的激活值将有不同的分布，于是，我們需要重新估計的均值和方差，稱這種政策為部分 BN。

與此同時，在 BN-Inception 的全局 pooling 層後添加一個額外的 dropout 層，來進一步降低過拟合的影響。dropout 比例設定：空間流卷積網絡設定為0.8，時間流卷積網絡設定為0.7。

資料增強

資料增強能産生不同的訓練樣本并且可以防止嚴重的過拟合。在傳統的 two-stream 中，采用随機裁剪和水準翻轉方法增加訓練樣本。作者采用兩個新方法：角裁剪（corner cropping）和尺度抖動（scale-jittering）。

角裁剪（corner cropping）：僅從圖檔的邊角或中心提取區域，來避免預設關注圖檔的中心。

尺度抖動（scale jittering）：将輸入圖像或者光流場的大小固定為，裁剪區域的寬和高随機從中選擇。最終，這些裁剪區域将會被 resize 到用于網絡訓練。事實上，這種方法不光包括了尺度抖動，還包括了寬高比抖動。

測試網絡

由于在 TSN 中片段級的卷積網絡共享模型參數，是以學習到的模型可以進行幀評估。具體來說，作者采用與 two-stream 相同的測試方案——即從動作視訊中采樣25個RGB幀或光流堆。同時，從采樣得到的幀中裁剪4個邊角和1個中心以及它們的水準翻轉來評估卷積網絡。為了根據訓練測試模型，在Softmax之前融合了25幀和不同流的預測分數。

空間和時間流網絡采用權重平均的方式進行融合。相比于 two-strean，TSN 中空間流卷積網絡和時間流卷積網絡的性能差距大大縮小。基于此，設定空間流的權重為1，設定時間流的權重為1.5。當正常和扭曲光流場都使用時，将其權重1.5分出1給正常光流場，0.5給扭曲光流場。

Temporal Segment Networks

2016年的 ECCV: Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

官方首頁

配置／安裝

下載下傳github原始檔案并編譯安裝.注意:此處編譯OpenCV2.4.13\dense_flow\Caffe.

git clone --recursive https://github.com/yjxiong/temporal-segment-networks
bash build_all.sh

随後,我們擷取了視訊資料(UCF101/HMDB51)和預訓練模型.

提取圖像幀以及提取光流資訊;

bash scripts/extract_optical_flow.sh SRC_FOLDER OUT_FOLDER NUM_WORKER

Demo – testing

執行代碼如下:

python tools/eval_net.py ucf101 1 rgb \
/home/ling/YH/work/Action_Recognition/dataset/UCF-101-flow \
models/ucf101/tsn_bn_inception_rgb_deploy.prototxt \
models/ucf101_split_1_tsn_rgb_reference_bn_inception.caffemodel \
--num_worker 1 \
--save_scores /home/ling/YH/work/Action_Recognition/temporal-segment-networks/result/RGB_SCORE_FILE_ucf101_split_1

通過代碼:

python tools/eval_scores.py SCORE_FILE

可以得到對應的結果

Accuracy 86.02% (ucf101 1 rgb)
    Accuracy 84.96% (ucf101 2 rgb)
    Accuracy 84.55% (ucf101 3 rgb)
    Accuracy 85.10% (UCF101 3 Splits Average)

Demo – training

執行代碼如下:提取結果将被放置在檔案夾data/下,檔案名為

ucf101_rgb_train_split_1.txt

,形式為

video_frame_path 100 10

(路徑,視訊提取幀數,類别數)

随後，我們訓練網絡：

訓練結果如下所示：

# ucf101_rgb_split1
Iteration , Testing net (#0)
I0402 ::   solver.cpp:]     Test net output #0: accuracy = 0.836842
I0402 ::   solver.cpp:]     Test net output #1: loss = 0.698602 (* 1 = 0.698602 loss)
**Accuracy % (UCF101  Splits Average)**

Demo – 單視訊測試

為了後續友善處理，我們這裡對檔案進行了相應的修改，進而可以進行單視訊測試，修改如下：（這裡，我們緊緊針對在 rgb 1 上進行修改）

首先：修改/data/ucf101_splits/檔案夾中的測試集01

testlist01.txt

，将其修改為你需要測試的單一視訊，如：

HandstandWalking/v_HandstandWalking_g07_c04.avi

接下來，修改/data/檔案夾中的檔案

ucf101_rgb_val_split_1.txt

，将将其修改為你需要測試的單一視訊幀，如：

dataset/v_HandstandWalking_g07_c04 192 37

（這些檔案是在 training 開始階段産生的，請看上邊的代碼）

随後，制作資料集 dataset：dataset中隻包括你的視訊幀檔案，如：

dataset/v_HandstandWalking_g07_c04 192 37

最後，進行測試，測試代碼示例如下：

python tools/eval_net.py ucf101  rgb \
dataset \   # 制作資料集位置
models/bn_inception_kinetics_rgb_pretrained/bn_inception_rgb_deploy.prototxt \  # 模型
single_test/ucf101_kinetics_rgb_split1_iter_6500.caffemodel \   # 模型參數
--num_worker  \    # GPU個數
--save_scores result/Kinetics_RGB_re_bn_SCORE_FILE_ucf101_split_1   # 存放結果

論文閱讀筆記: 2016 ECCV Temporal Segment Networks: Towards Good Practices for Deep Action Recognition論文閱讀筆記: 2016 ECCV Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

論文閱讀筆記: 2016 ECCV Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

主要思想

網絡結構

正則化技術

資料增強

測試網絡

相關實驗

Temporal Segment Networks

配置／安裝

Demo – testing

Demo – training

Demo – 單視訊測試

繼續閱讀

Ubuntu安裝QQ，微信，迅雷等Wine軟體

webstorm中配置git

Webstorm上配置Github和Git

如何下載下傳blob:https://www.bilibili.com/的視訊

Ubuntu14.04+cuda8.0+caffe+MATLAB

GitHub打開太慢,或者打不開Github,試試代理

Github通路速度慢的解決方案總彙

【考研政治】2021肖八整理（時政部分）

分享開源Cesium地形制作工具

git關聯問題解決

github 如何和 xcode 聯系起來

localstack 1.0 ga 了

解決方案之：DM relay 處理單元報錯

用 Canvas 編織璀璨星空圖

《2020失業潮，普通人能否出奇制勝？》筆記

開源按鍵元件Multi_Button的使用,含測試工程