天天看點

AAAI 2020 | HACS運動定位冠軍方案 基于一種新穎的2D時間鄰域網絡方法視訊内容動作定位

當時間從一維變為二維時,時間序列資訊處理問題出現了一種新的模組化思想。基于這一新的思想和二維時間圖的概念,微軟亞洲研究院提出了一種解決時間定位問題的新的通用方法:基于視訊内容的自然語言描述的二維時域鄰近網絡2D-TAN。驗證了視訊定位和人體運動檢測的有效性,并在2019年ICCV HACS動作定位挑戰賽中獲得第一名。相關技術細節将發表在AAAI 2020論文“用自然語言學習二維時間相鄰網絡進行時刻定位”本文将對本研究進行深入的闡釋。

作者資訊

AAAI 2020 | HACS運動定位冠軍方案 基于一種新穎的2D時間鄰域網絡方法視訊内容動作定位

介紹

我們通常把實體世界定義為三維空間,把時間定義為一維空間。然而,這并不是定義它的唯一方法。最近,研究人員打開了思路,提出了一種新的時間表示方法,将時間定義為二維!

時間是如何用二維表示的?他們給出的答案是:在二維空間中,我們定義一個次元來表示時間的開始時間,另一個次元來表示時間的結束時間;是以,二維空間中的每個坐标點都可以表示為一個時間段(例如,從時間A到時間B結束的時間段)一個特定的時間點(例如,從時間a到時間a的結束,即時間a)。

這個二維時間定義的目的和意義是什麼?他們認為這種新的時間定義方法可以為時間序列資訊的處理,如視訊、語音、軌迹等時間序列資訊的分析和處理提供一種新的模組化思路。近年來,他們将這種新的時間表達式應用于視訊内容的了解,在視訊中實作了人體運動檢測和視訊内容片段定位任務中取得了優異的性能。值得一提的是,他們應用這種新的時間表達方法,結合最新的深度學習模型,在視訊動作識别與檢測競賽(HACS時間動作定位挑戰賽)中取得了第一名。

方法

下面,讓我們了解一下這個二維時間表達式是如何應用到視訊内容了解任務中的。

  • 基于二維時間圖的視訊内容分段定位

視訊内容片段定位包括多個子任務,如視訊中具有自然語言描述的視訊片段定位和視訊中的時間動作定位。前者需要根據使用者給出的描述語句來定位文本所描述的視訊剪輯的開始和結束時間點,後者需要檢測動作片段類别的存在并将其定位在動作開始和結束的給定長視訊時間點上。

在這些任務中,一種常見的方法是預先設定一些候選視訊片段(建議/時刻/片段),然後相應地預測每個片段的可能性。然而,在預測過程中,以往的工作通常隻對每一段進行獨立的預測,而忽略了各段之間的依賴關系。為此,本文提出了二維時間映射的概念,并通過二維時間域鄰接網絡(2D-Temporal-jacent network,即2D-TAN)來解決這一問題。該方法是解決時間定位問題的一般方法。它不僅可以學習段間的時域鄰近關系,還能學習更多的特征表達式。

在上述視訊内容片段定位任務中,驗證了該方法的有效性。在基于自然語言描述的視訊片段定位任務中,我們提出的2D-TAN方法在三個基準資料集上取得了良好的性能結果,相關論文已被AAAI 2020[1]所接受。在視訊中的人體運動檢測中,我們基于2D-TAN的改進方案[2]在HACS時間動作定位挑戰中獲得了第一名。

下面以自然語言描述的視訊内容片段定位為例介紹我們的工作,并簡要介紹了人體運動檢測的發展。

  • 基于自然語言描述的視訊片段定位

基于自然語言描述定位視訊片段的任務是根據使用者給出的描述語句,從視訊中定位文本描述的視訊片段,并傳回該片段的開始和結束時間,如圖所示,之前的工作是獨立地比對句子和片段,忽略其他碎片對它的影響。在處理多個片段時,很難獲得準确的結果,特别是在片段之間存在依賴關系時。例如,當我們想定位“那個家夥又吹薩克斯管了”時,如果我們隻看下一個視訊而不是上一個視訊,我們就找不到視訊中的這個片段。另一方面,有許多候選片段與目标片段重疊,如圖1中查詢B下的各個片段。這些剪輯具有相似的視訊内容,但在語義上略有不同。如果不綜合考慮這些片段來區分細微差别,也很難得到準确的結果。

AAAI 2020 | HACS運動定位冠軍方案 基于一種新穎的2D時間鄰域網絡方法視訊内容動作定位

圖1:在未修剪的視訊中使用自然語言定位瞬間的示例。 在二維時間圖中,黑色的垂直軸和水準軸代表開始和結束幀索引,而相應的灰色軸代表視訊中相應的開始和結束時間。 2D映射中用紅色突出顯示的值表示候選時刻和目标時刻之間的比對分數。 在此,τ是由視訊長度和采樣率确定的短持續時間。

為了解決這個問題,我們提出了一個二維時域鄰近網絡(2D-TAN)。核心思想是在二維時間圖中定位視訊片段,如圖1所示。具體來說,圖中的(i,j)表示從i到(j+1)的時間段。該圖包含不同長度的片段,并且通過圖中坐标的距離,我們可以定義這些片段之間的鄰近關系。通過這些關系,我們的2D-TAN模型可以對依賴項進行模組化。同時,不同剪輯和目标剪輯之間的重疊程度也會有所不同。2D-TAN可以通過将這些重疊的差異作為一個整體來考慮,而不是單獨考慮每個段,進而學習更多的差別特征,如圖2所示:

AAAI 2020 | HACS運動定位冠軍方案 基于一種新穎的2D時間鄰域網絡方法視訊内容動作定位

圖2:與以前方法的比較。綠色長方體表示候選片段與句子融合後的相似性特征。框中訓示分數,框中的紅色程度訓示段與目标段重疊的程度。左圖顯示了前面的方法,它獨立地預測每個片段的得分。右邊的圖顯示了我們的方法。在預測目前段的得分時,它考慮了相鄰段之間的關系。

  • 二維時域鄰近網絡(2D-TAN)

我們的2D-TAN模型如圖3所示。該網絡由三部分組成:用于提取自然語言文本特征的編碼器、用于提取視訊特征地圖的編碼器和用于定位的時域鄰近網絡。下面我們将詳細介紹每個部分。

AAAI 2020 | HACS運動定位冠軍方案 基于一種新穎的2D時間鄰域網絡方法視訊内容動作定位

圖3:我們建議的2D時間相鄰網絡的架構。 它由用于語言表示的文本編碼器,用于視訊表示的2D時域特征圖提取器和用于時域定位的時域相鄰網絡組成

  • 文本特征

我們将每個文本詞轉換成一個GloVe向量表示法[4],然後将其最後一層的輸出作為文本句子的特征,依次通過LSTM網絡[5]傳遞。

  • 視訊二維特征圖

我們首先将視訊分割成小的單元片段,然後将其下采樣到均勻的長度,然後通過預先訓練的網絡提取其特征。提取的特征通過卷積和池運算得到最終的剪輯特征(N×d^v)。候選片段由連續的單元片段組成,不同候選片段的長度可能不同。為了獲得一個統一的特征表示,對于每個候選片段,我們通過最大限度地彙集相應的單元片段序列來獲得其最終身份。根據每個候選段的開始和結束時間點,将所有候選段重新排列成一個大小為N×N×d^v的二維特征圖,因為開始時間總是小于結束時間,是以特征圖的下三角部分無效,是以我們用0填充它們,不參與後續的計算。

當N較大時,特征映射的計算量也會增加。為了解決這個問題,我們還提出了一種稀疏映射構造政策,如圖4所示。在這個圖中,我們根據片段的長度以不同的密度進行采樣。對于短剪輯,我們枚舉所有可能的情況并執行密集采樣。對于中等長度的剪輯,我們将采樣步長設定為2。對于長剪輯,我們将采樣步長設定為4。這樣,在保證計算精度的同時,可以減少枚舉帶來的計算開銷。所有未選擇的片段都用0填充,不參與後續計算。

AAAI 2020 | HACS運動定位冠軍方案 基于一種新穎的2D時間鄰域網絡方法視訊内容動作定位

圖4:未修剪的視訊中有N = 64個采樣片段時的候選矩選擇。 2D映射的上部三角形部分枚舉了從剪輯va到vb的所有可能的矩候選,而下部三角形部分無效。 在我們的方法中,僅選擇藍點作為矩候選, 彩色效果最佳。

  • 基于時間的鄰近網絡定位

利用視訊的二維特征圖(圖3中的藍色立方體)和句子的文本特征(圖3中的黃色立方體),我們首先将特征圖中每個位置的視訊特征與文本特征融合,得到相似度特征圖(圖3右圖像中左側的綠色立方體)。然後,将融合後的相似性特征映射通過一系列卷積層,并逐層建立各段與其周圍段之間的關系。最後,将考慮鄰域關系的相似度特征輸入到完全連通層中,得到最終的得分。

  • 損失函數

在訓練整個2D-TAN網絡時,使用二進制交叉熵作為損失函數,并在損失函數中使用線性變換的交并(IoU)值作為标記。

實驗結果

我們在三個資料集上進行了測試:Charades STA[6]、ActivityNet caption[7]和TACoS[8]。實驗結果見表1-3。從實驗結果可以看出,該方法在不同資料集的各種評價名額下都取得了良好的性能。值得注意的是,在更嚴格的評價标準下(如表1-3中的秩{1,5}@{0.5,0.7})我們的方法改進更為顯著,尤其是在玉米卷中,[email protected]和[email protected]都提高了5和14個百分點。這些實驗結果表明,基于二維時間圖的貼近關系的模組化可以大大提高性能。

AAAI 2020 | HACS運動定位冠軍方案 基于一種新穎的2D時間鄰域網絡方法視訊内容動作定位

表1:Charades-STA上的性能比較。 Pool和Conv分别表示最大池化和堆疊卷積,這訓示了我們2D TAN中矩特征提取的兩種不同方式。 用粗體和斜體字型突出顯示的值分别表示前2種方法。 其餘表使用相同的符号。

AAAI 2020 | HACS運動定位冠軍方案 基于一種新穎的2D時間鄰域網絡方法視訊内容動作定位

表2:ActivityNet字幕的性能比較

AAAI 2020 | HACS運動定位冠軍方案 基于一種新穎的2D時間鄰域網絡方法視訊内容動作定位

表3:TACoS的性能比較

基于二維時間映射的人體運動檢測

考慮到2D-TAN方法的通用性及其在基于自然語言的時間定位任務中的優異性能,我們在後續工作中将其擴充到視訊中的人體運動檢測任務。此任務需要檢測給定長視訊中預定義的動作段類别及其開始和結束時間點。一種常見的方法是将任務分成兩個步驟,首先檢測哪些片段可能具有預定義的動作片段(建議生成),然後預測這些候選片段可能屬于的類别。考慮到這類實踐的第一步與我們提出的2D-TAN方法非常相關,其本質是為了解決碎片之間的互相依賴問題,是以我們使用2D-TAN方法來改進這一任務。見圖5:

圖5:S-2D-TAN架構圖

AAAI 2020 | HACS運動定位冠軍方案 基于一種新穎的2D時間鄰域網絡方法視訊内容動作定位

與基于自然語言描述的視訊片段定位相比,用于視訊運動定位的目标片段往往更短。是以,需要更高的采樣頻率,是以采樣單元片段N的數量更大。相應地,特征映射中長片段的采樣步長也會相對較大,并且底層卷積層往往感覺不到足夠的上下文資訊。在圖5中,紅色虛線框表示中長線段的第一層中涉及的相鄰線段,黃色虛線框表示短線段中涉及的相鄰線段。我們可以看到黃色框比紅色框包含更多的上下文資訊。是以,在2D-TAN的基礎上,我們設計了一個稀疏的2D時間鄰接網絡(即S-2D-TAN),用于上下文資訊較少的長段。該網絡根據采樣步長将稀疏映射分解為三個更為緊湊的時域特征映射。通過将不同的特征映射通過具有共享核心的卷積網絡,長段可以從周圍的特征中擷取更多的上下文資訊。

作者的算法在ICCV2019年HACS行動定位挑戰賽中獲得第一名。值得一提的是,HACS是目前視訊中用于人體運動檢測任務的最大資料集[2]。詳見技術報告[3]。

AAAI 2020 | HACS運動定位冠軍方案 基于一種新穎的2D時間鄰域網絡方法視訊内容動作定位

圖6:比賽獲獎證書

結論

論文位址或源碼下載下傳位址:關注“圖像算法”wx公衆号 回複"2D-TAN",本文提出了一種二維時間圖表示和一種新的用于視訊内容段定位的時域鄰近網絡(2D-TAN)。該方法的有效性是基于視訊内容定位和人體運動檢測的自然語言描述。已對此任務進行了初步驗證。這種方法還處于探索的初級階段:從網絡結構的角度看,目前的結構隻采用簡單的卷積層疊加方式。相信網絡結構本身的進一步優化将帶來性能的提高。另一方面,從方法的通用性來看,目前我們隻驗證了兩個任務,還有很多相關任務值得擴充,比如視訊文本描述、視訊内容問答,或者其他包含語音等計時資訊的任務。

繼續閱讀