1. introduction

在任何需要對目标物體進行某種程度推理的視訊應用中，跟蹤都是一項基本任務，因為它允許在幀之間建立物體對應關系[34]。它可用于各種場景，例如自動監視，車輛導航，視訊标簽，人機互動和活動識别。視覺對象跟蹤的目的是在給定視訊第一幀中任意感興趣目标的位置後，以盡可能最佳的精度估計其在所有後續幀中的位置。

對于許多應用程式而言，在視訊流傳輸時可以線上進行跟蹤非常重要。換句話說，跟蹤器不應利用将來的幀來推斷物體的目前位置[26]。這是視覺對象跟蹤基準所描繪的場景，該基準代表具有簡單軸對齊（例如[56，52]）或旋轉[26，27]邊界框的目标對象。這樣簡單的注釋有助于保持較低的資料标記成本。此外，它還允許使用者執行目标的快速、簡單初始化。

與對象跟蹤類似，半監督視訊對象分割（VOS）的任務需要估計在視訊的第一幀中指定的任意目标的位置。但是，在這種情況下，對象表示由二進制分割掩碼組成，該掩碼表示像素是否屬于目标[40]。對于需要像素級資訊的應用程式，如視訊編輯[38]和旋轉攝影[37]，這種詳細表示更為理想。可以了解，與簡單的生成邊界框相比，生成像素級估計需要更多的計算資源。結果，VOS方法傳統上很慢，通常每幀需要幾秒鐘的時間（例如[55、50、39、1]）。最近，人們對更快的方法産生了興趣[59、36、57、8、7、22、21]。但是，即使最快的仍然無法實時運作。

在本文中，我們旨在通過提出SiamMask（一種可用于解決這兩個問題的簡單多任務學習方法）來縮小任意對象跟蹤與VOS之間的差距。基于完全卷積的暹羅網絡[3]的快速跟蹤方法的成功，以及對數百萬對視訊幀（例如[28、63、15、60]）的離線訓練，以及基于YouTube- VOS [58]，一個具有逐像素注釋的大型視訊資料集。我們旨在保留這些方法的離線可訓練性和線上速度，同時顯着改善其對目标對象的表示，這僅限于簡單的軸對齊邊界框。

為了實作此目标，我們同時在三個任務上訓練了一個暹羅（fully convolutional Siamese）網絡，每個任務都對應一種不同的政策，以在新架構中建立目标對象與候選區域之間的對應關系。與Bertinetto等人的全卷積方法一樣。 [3]，一項任務是學習衡量目标之間的相似度對象和多個候選對象以滑動視窗的方式輸出。輸出是一個密集的響應圖，僅訓示對象的位置，而沒有提供有關其空間範圍的任何資訊。為了完善此資訊，我們同時學習了另外兩個任務：使用區域提議網絡[46，28]進行邊界框回歸和分類不可知的二進制分割[43]。值得注意的是，二進制标簽僅在離線教育訓練期間才需要計算分割損失（segmentation loss ），而在細分/跟蹤過程中則不需要線上。在我們提出的體系結構中，每個任務都由一個不同的分支來代表，該分支與共享的CNN背道而馳，将三個輸出相加，得到最終的損失。

經過教育訓練後，SiamMask僅依靠單個邊界框初始化，無需更新即可線上運作，并以每秒55幀的速度生成對象分割蒙版和旋轉的邊界框。 SiamMask盡管簡單易行，但速度很快，它針對實時對象跟蹤問題在VOT-2018上建立了新的技術水準。而且，相同的方法比最近在DAVIS-2016和DAVIS-2017上采用半監督VOS的方法更好，同時速度也是最快的。通過簡單的邊界框初始化（而不是掩碼）即可獲得此結果，而無需采用VOS方法經常使用的昂貴技術，例如微調[35，39，1，53]，資料增強[23，30]和光流[50、1、39、30、8]。

本文的其餘部分組織如下。第2節簡要概述了視覺對象跟蹤和半監督VOS中最相關的現有工作；第三節描述我們的方法；第4節以四個基準對它進行了評估，并舉例說明了一些燒蝕研究。第五部分總結全文。

2. Related Work

在本節中，我們簡要介紹了針對本文所解決的兩個問題的最具代表性的技術。視覺對象跟蹤。可以說，直到最近，用于跟蹤任意對象的最流行的範例是僅根據視訊第一幀中提供的ground-truth資訊線上上訓練判别式分類器（然後線上進行更新）。關聯濾波器（CF）是一種可以區分任意目标的模闆及其2D轉換的簡單算法，由于Bolme等人的開創性工作，它成為了一種特别快速有效的逐次跟蹤跟蹤政策。 [4]。通過采用多通道公式[24、20]，空間限制[25、13、33、29]和深層特征（例如[12、51]），基于相關濾波器的跟蹤器的性能得到了顯着改善。

最近，一種完全不同的方法被引入[3,19,49]。這些方法不是線上學習分離分類器，而是離線訓練視訊幀對的相似函數。在測試時，這個函數可以簡單地在一個新的視訊上執行，每幀一次。特别是，全卷積Siamese方法[3]的演化利用了區域建議[28]、難例挖掘[63]、集合[15]和記憶體網絡[60]，這極大地改進了跟蹤性能。

大多數現代跟蹤器，包括上面提到的所有跟蹤器，都使用一個矩形包圍框來初始化目标并在随後的幀中估計它的位置。盡管簡單的矩形很友善，但它常常不能正确地表示對象，如圖1中的示例所示。這促使我們提出了一個跟蹤器，能夠産生二進制分割掩碼，而仍然隻依賴用一個邊界框初始化。

SiamMask論文翻譯1. introduction2. Related Work3. Methodology（方法學）3.2 SiamMask未完待續

有趣的是，在過去，跟蹤器生成目标對象的粗糙二進制掩碼是很常見的。[11，42])。然而，據我們所知，最近唯一的跟蹤器，像我們一樣，能夠線上操作，并從邊界框初始化開始生成一個二進制掩碼，這是Yeo等人基于超像素的方法。[61]。然而，它的最快版本速度是4幀每秒(fps)，比我們的方案要慢得多。此外，當使用CNN feature時，其速度會下降60倍，下降到0.1 fps以下。最後，它在現代跟蹤或VOS基準上沒有表現出競争力。與我們相似，Perazzi等人的方法[39]和Ci等[10]也可以從一個矩形開始

輸出每幀的掩碼。但是，它們需要在測試時進行微調，這使它們變慢。

**半監督視訊對象分割。**任意對象跟蹤的基準(例如[48,26,56])都是假設跟蹤器以連續的方式接收輸入幀，通常用線上或因果屬性來指代這方面[26]。此外，方法往往集中在實作速度超過典型的視訊幀率[27]。相反，半監督VOS算法傳統上更關注目标的準确表示[38,40]。

為了利用視訊幀之間的一緻性，多種方法通過圖示記方法（例如[55、41、50、36、1]）将第一幀的監督分割掩碼傳播到時間相鄰的掩碼。特别是，鮑等人 [1]最近提出了一種非常精确的方法，該方法利用了時空MRF，其中時間依賴性通過光流模組化，而空間依賴性通過CNN表示。

另一種流行的政策是獨立處理視訊幀(例如[35,39,53])，這與大多數跟蹤方法類似。例如，在OSVOS-S Maninis等人的[35]不利用任何時間資訊。他們依賴于一個經過預處理的全卷積網絡進行分類，然後在測試時，使用第一幀提供的ground-truth掩碼對其進行微調。相反，MaskTrack[39]是從零開始對單個圖像進行訓練，但它确實利用了測試時的某種形式的時間性，使用最新的掩模預測和光流作為額外的網絡輸入。

為了達到盡可能高的精度，在測試時VOS方法通常采用計算密集型技術，如微調[35,39,1,53]、資料增強[23,30]和光流[50,1,39,30,8]。是以，這些方法的特點通常是低幀率和無法線上操作。例如，對于隻有幾秒鐘長的視訊，像DAVIS的方法需要幾分鐘[39,9]甚至幾個小時[50,1]是很常見的。

最近，VOS社群對更快的方法越來越感興趣[36、57、8、7、22、21]。據我們所知，最快的方法是Yang等人的[59]和Wug等人的[57]。前者使用元網絡“調制器”在測試期間快速适應分段網絡的參數，而後者不使用任何微調，采用經過多階段訓練的碼譯碼器Siamese架構。這兩種方法的運作速度都低于每秒10幀，而我們的速度是它的六倍多，并且隻依賴于邊界框的初始化。

3. Methodology（方法學）

為了實作線上的可操作性和快速的速度，我們采用了全卷積式的Siamese架構[3]。此外，為了說明我們的方法不依賴于作為起點使用的特定全卷積方法(例如[3,28,63,60,16])，我們以流行的SiamFC[3]和SiamRPN[28]作為兩個代表性的例子。我們首先在3.1節中介紹它們，然後在3.2節中描述我們的方法。

3.1. Fully-convolutional Siamese networks

SiamFC. Bertinetto等人的[3]提出使用離線訓練的全卷積Siamese網絡作為跟蹤系統的基本建構塊，該網絡将樣本圖像z與(較大的)搜尋圖像x進行比較，以獲得密集的響應圖。z和x分别是以目标物為中心的w×h的裁剪量和以目标最後估計位置為中心的較大的裁剪量。兩個輸入是一樣處理的CNN fθ,産生兩個特征圖闡述:

g θ ( z , x ) = f θ ( z ) ⋆ f θ ( x ) g_{\theta}(z, x)=f_{\theta}(z) \star f_{\theta}(x) gθ(z,x)=fθ(z)⋆fθ(x)

在本文中，我們将響應映射(式1左側)中的每個空間元素稱為候選視窗(行)的響應。例如,gθn (z;x)編碼之間的相似性examplar z和n個候選人在x視窗檔案。SiamFC,目标是為響應的最大值的目标位置映射到對應搜尋區域x。相反,為了讓每一行編碼豐富目标對象的資訊,我們将簡單的互相關的Eq。1替換為深度方面互動作用[2]和産生多通道響應圖。SiamFC離線訓練數百萬幀具有邏輯損耗的視訊幀[3，第2.2節]，我們将其稱為Lsim。

SiamRPN. Li等人利用區域建議網絡(RPN)[46,14]大大提高了SiamFC的性能，該區域建議網絡允許使用可變長徑比的邊界框來估計目标位置。特别地，在SiamRPN中，每一行編碼一組k個錨盒建議和相應的對象/背景分數。是以，SiamRPN輸出與分類分數并行的框預測。利用光滑L1和交叉熵損失對兩個輸出支路進行訓練[28,3.2]。在下文中，我們将它們分别稱為Lbox和Lscore。

3.2 SiamMask

不像現有的跟蹤方法依賴于低保真對象表示，我們認為生産每幀二值分割掩碼的重要性。為此，我們證明，除了相似度評分和邊界盒坐标外，全卷積Siamese網絡的行還可以對生成像素級二進制掩碼所需的資訊進行編碼。這可以通過使用額外的分支和損失來擴充現有的Siamese跟蹤器來實作。

我們預測w×h二進制面具(為每一行一個)使用一個簡單的兩層神經網絡hφ可學的參數φ。設m_n表示第n行對應的預測掩碼：

m n = h ϕ ( g θ n ( z , x ) ) m_{n}=h_{\phi}\left(g_{\theta}^{n}(z, x)\right) mn=hϕ(gθn(z,x))

由式(2)可知，掩模預測是圖像分割x和目标物體在z中的函數。這樣，z可以作為一個參考來指導分割過程:給定一個不同的參考圖像，網絡将為x生成一個不同的分割掩碼。

損失函數

未完待續

請參考 https://blog.csdn.net/calvinpaean/article/details/88394130