天天看點

R-C3D快速視訊活動物體檢測算法

本文介紹了經典模型R-C3D:用于時間活動檢測的區域卷積3D網絡。此型号來自ICCV 2017.Google Academic Display被引用了127次。近兩年來,這是該領域的一項有影響力的工作。代碼一直是開源的。

該算法的基本思想如下:

R-C3D快速視訊活動物體檢測算法

受目标檢測方法F-RN CNR的啟發,本文提出了一種區域卷積三維網絡(R-C3D)。如上所示,該方法首先在3D完全卷積網絡中對視訊幀進行編碼,然後提取動作提議段,最後在分類的分子網絡中(a)。動作分類子網)并對結果進行分類和細化。

相關介紹

連續視訊中的活動檢測是一個具有挑戰性的問題,不僅需要識别,還需要及時準确地定位活動。在處理連續視訊流的活動檢測時,現有方法存在以下問題:

1)這些現成的表示可能不适合于定位不同視訊域中的活動,進而導緻地下性能。

2)現有方法依賴于外部建議或綜合滑動視窗,這導緻低計算效率。

3)滑動Windows無法輕松預測靈活的移動邊界。

主要貢獻

1)本文提出了一種活動檢測模型R-C3D,它是一種端到端的活動檢測模型。它可以檢測任何長度的活動與活動推薦和分類階段。

2)通過在提議生成和網絡分類之間共享C3D的完全卷積特征,可以實作快速檢測速度(比目前方法快5倍)。

3)評估了三種不同的活動檢測資料集,證明了本文提出的模型具有普遍适用性。

關鍵原理

該網絡可用于連續視訊流中的活動檢測。其網絡結構如下,由三部分組成:共享3D ConvNet特征提取器,時間提議階段和活動分類與細化階段。

R-C3D快速視訊活動物體檢測算法

為了實作高效計算和端到端訓練,建議與分類子網共享C3D特征映射。這裡的一個關鍵創新是将更快的R-CNN中的2D RoI池擴充到3D RoI池。這種方法的優點是所提出的模型可以提取具有各種分辨率的可變長度建議框的特征。

在本文中,我們通過優化兩個子網的分類和回歸任務來訓練網絡。Softmax損失函數用于分類,平滑L1損失函數用于回歸。是以,本文的目标函數是将兩種損失函數結合如下:

R-C3D快速視訊活動物體檢測算法

上式中Ncls和Nreg分别代表批量大小和anchor/proposal段的數量,為損失權衡參數,設定為1,為預測機率,

R-C3D快速視訊活動物體檢測算法

表示anchor或proposals的預測相對偏移量,

R-C3D快速視訊活動物體檢測算法

表示anchor或proposals的ground truth的坐标變換。

其變換如下:

R-C3D快速視訊活動物體檢測算法

實驗結果

Experiments on THUMOS’14

R-C3D快速視訊活動物體檢測算法

表1是THUMOS'14的活動檢測結果。在表1中,作者将目前方法和R-C3D活動檢測性能在IoU門檻值0.1-0.5中進行了比較(表示為a)。在具有單向緩沖器的R-C3D中,[email protected]比目前最先進的方法高出27.0%3.7%。在所有IoU門檻值下,雙向緩沖器的R-C3D mAP得到改善,mAP @ 0.5達到28.9%。

R-C3D快速視訊活動物體檢測算法

表2顯示了R-C3D中的每類AP(平均精度)和資料集THUMOS'14上的其他方法。該表顯示R-C3D的AP在大多數類别中優于其他方法,在一些活動中甚至超過20%,例如Basketball Dunk,Cliff Diving等。圖(a)顯示了兩個視訊的定性結果 資料集THUMOS'14。

R-C3D快速視訊活動物體檢測算法

ActivityNet上的實驗

表3顯示了ActivityNet上的結果。表3.活動網絡上的檢測結果表示為[email protected](百分比)。從表中可以看出,R-C3D方法在驗證集和測試集中分别優于UPC 4.3%和4.5%(在[email protected]下)。當訓練集和驗證集用于訓練時,R-C3D方法的結果僅比訓練集高1.6%。

R-C3D快速視訊活動物體檢測算法

介紹了ActivityNet中R-C3D的代表性結果。

R-C3D快速視訊活動物體檢測算法

表4是關于資料集Charades的活動檢測結果。如表4所示,所提出的模型優于文獻[25]中提出的異步時域模型以及本文中報告的不同基線。

R-C3D快速視訊活動物體檢測算法

根據标準實踐,該模型根據[email protected]進行評估,結果為9.3%。性能與其他資料集中測試的性能不同。這可能是由于資料集Charades中的固有問題,例如室内場景中的低照度,或者資料上的标簽太多。

圖顯示了Charades中R-C3D的代表性結果。

R-C3D快速視訊活動物體檢測算法

結論

1)引入R-C3D模型以提出用于活動檢測的第一端到端時間分類網絡。

2)在三個大規模資料集中評估所提出的方法。結果表明,該方法比基于三維卷積的目前模型更快,更準确。

3)R-C3D還可以添加一些其他功能,以進一步改善活動檢測結果。

論文位址、源碼位址、示範視訊:關注微信公衆号:“圖像算法”或者微信搜尋imalg_cn可擷取

繼續閱讀