天天看點

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

點選藍字關注我們

摘要: 近年來,随着遙感圖像分辨率的提高,遙感目标檢測(例如飛機、船舶、油桶等檢測)已成為研究熱點。遙感目标檢測具有廣泛的應用,如軍事調查、災難救援和城市交通管理。針對艦船目标檢測問題,本文創新性的利用旋轉框标注的遙感資料集DOTA對Mask RCNN算法進行訓練。在對後續的性能分析中,陸續引入群組歸一化、權重标準化和可變卷積以提升對旋轉框的檢測效率。

關鍵詞: Mask RCNN;目标檢測;執行個體分割;旋轉框檢測

1.項目背景

随着遙感技術的快速發展,遙感圖像的空間分辨率、光譜分辨率和輻射分辨率越來越高,這其中包含着豐富的資訊。各種不同成像方式、不同空間分辨率的遙感平台得以湧現,産生了大量的遙感圖像。遙感在軍事和民用領域都有着重要的應用。對于民用領域,遙感圖像可用于氣象預報、土地規劃、環境檢測等方面,為國民經濟的發展做出了重要的貢獻。在軍事方面,可以使用遙感圖像戰略偵察、軍事測繪、海洋檢測等,可以在不受國界和地域限制的情況下擷取各種軍事目标情報資訊。

目前對于遙感圖像中艦船目标的識别占據着重要的地位,由于國家海洋權益越來越受到重視,如何從海量的遙感資料中快速、準确識别艦船成為一個迫切的應用需求。是以本文采用深度學習的方法對遙感圖像艦船目辨別别,一方面可以替代人們從事重複繁瑣的工作,使人們從繁重的遙感圖像解譯工作中解脫出來;另一方面建立一種端到端的模型結構,不僅可以提高遙感資料的處理速率,而且達到較高的識别準确率。

2.項目具體方案

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

2.1 資料集的預處理與轉換

本次實驗選用的是DOTA[7]資料集,該資料集共有2806張圖檔,來自不同的傳感器和平台,每一張尺度約為(800~4000),目标涵蓋了各種各樣的規模,位置,形狀。這些圖像被遙感領域的專家注釋并被分為15個目标類别,包括飛機、船隻、儲蓄罐、棒球内場、網球場、籃球場、田徑場、海港、橋、大型車輛、小型車輛、直升飛機、英式足球場、環形路線、遊泳池,注釋後的完整資料集包括188282個執行個體,每一個被一個任意的四邊形标記。

由于DOTA資料集的尺寸非常大,這樣的圖檔輸入網絡進行訓練時,計算資源将不能承載,是以就需要對DOTA資料集進行裁剪。裁剪方式主要分為兩個步驟,第一,使用1024×1024視窗在寬幅圖檔上滑動進行裁剪,視窗每次的步進幅度1000,但是這種裁剪方式可能會導緻物體正處于切割處,是以做出如下定義,物體剩餘的面積大于或等于原始面積0.7時保留該物體的标注資訊,否則對其丢棄處理;第二,對寬幅圖像進行放縮,縮放比例分别為0.5,1,2。

Mask RCNN訓練時需要三種标注資訊,類别(category),包圍框(bounding box),掩模(segmentation),其中包圍框為非旋轉框。DOTA資料集隻存在類别與旋轉框,标注形式為

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

(x_1,y_1,x_2,y_2,x_3,y_3,x_4,y_4)。DOTA資料集中目标的尺寸範圍比較大,艦船面積小至100,大至1000000。切分後的圖像尺寸仍然較大,圖像中經常性的存在密集排列的物體,是以基于DOTA資料集的識别非常具有挑戰性。對艦船目标而言,輪廓資訊與旋轉框相差無幾,是以可以近似将其旋轉框等價于掩模标注資訊,是以本文Mask RCNN的主要研究對象為艦船目标。對于非旋轉框,我們通過旋轉框的轉換,可以得到非旋轉的資訊,轉換方式如下:

(1)對所有x,y坐标求取最小值

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

,最大值

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

(2)将

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

兩兩組合,構成四對坐标;

(3)所求的四對坐标即為非旋轉資訊。

圖1為DOTA資料集對艦船目标旋轉框的标注,以及通過上述的方式得到非旋轉框的标注。

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測
圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

2.2 Mask RCNN算法

Mask RCNN[1]基于Faster RCNN網絡架構做出了改進,添加了用于執行個體分割的分支,該分支與已有的包圍框回歸分支、分類分支平行。執行個體分割分支将一個小型的FCN網絡應用于所有RoI,預測像素級的分割掩模。Mask RCNN網絡相對于Faster RCNN網絡主要做出了兩處改變,第一,使用RoI Align代替RoI Pooling,使得特征圖與原始圖檔的對齊一緻性增強,改善分割的精度;第二,損失函數加入執行個體分割損失。網絡的主要架構圖2所示。

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

圖2中網絡的整體架構包含一個FPN[2](Feature Pyramid Networks)架構。在FPN之前,大多數的目标檢測算法隻在特征提取網絡的頂層進行檢測。雖然卷積神經網絡的深層特征有利于分類識别,但不利于目标的定位。為此,一個具有側向連接配接的自頂向下的架構被用于建構不同尺度的語義資訊。主幹網絡通過它的正向傳播,自然形成一個特征金字塔,FPN在檢測各種尺度的目标方面顯示出了巨大的進步。FPN已經成為許多目标檢測算法的基本組成。

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

2.3 Mask RCNN算法改進

2.3.1 群組歸一化

BN(Batch Normalization)是深度學習發展過程中的一個裡程碑的技術,它使得各種網絡較為容易的訓練。然後在批次次元的歸一化會帶來一個問題,當批次大小下降時,BN的誤差将會增加。通常在目标檢測與執行個體分割中,批次大小一般是1或2,這樣就限制了BN在這些任務中的應用。2018年6月,Facebook研究院的Yuxin Wu等提出了群組歸一化[3](Group Normalization)(以下簡稱GN),GN的計算不依賴于批次的大小,在大範圍批次變動下,其精度是穩定的。

在深度學習興起之前,提取的特征通常是SIFT、HOG、GIST特征,這些特征有一個共性,都是按群組(group)表示的特性,每一個群組由相同種類直方圖建構而成。這些特征通常是每個直方圖或每個方向圖進行組歸一化而得到的。導緻分組的因素很多,比如頻率、形狀、亮度或者紋理等,HOG特征根據旋轉梯度分組,而對神經網絡而言,其提取特征的機制更複雜,也更難以描述。另外在神經科學領域,一種被廣泛接受的計算模型是對細胞的響應做歸一化,此現象存在于淺層和整個視覺系統。特征歸一化的表征形式如公式1所示:

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

2.3.2 權重标準化

權重标準化[4](Weight Standardization)(以下簡稱WS)也是為了解決BN對于Batch size的限制要求,基本思想和BN一緻的,就是盡量保持映射的平滑性。不過BN是通過回報信号來間接調整權重,WS是直接調整權重。

設一個卷積網絡,其偏置為0,則前向傳播過程可以表示為:

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測
圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

在WS中f(x)和x分别表示為損失和權重,是以公式(13)中,由于減去兩個正數是以L限制常數将會變小,在小的batchsize下能夠像BN在大的batchsize下一樣使得損失函數變得很平滑,同時消除了卷積核在偏置和尺度上的自由度,使得訓練收斂的更好。

2.3.3 可變卷積

CNN中池化層和STN[5](Spatial Transformer Networks)都是為了增加空間不變性,但是二者增加空間不變性的出發點不同,CNN是盡力讓網絡适應物體的形變,而STN是直接通過ST将形變的物體變回正常的姿态。CNN固定的卷積核,固定的池化核,固定的RoI,導緻高層神經元的感受野是固定的,沒有辦法有效的編碼語義或者位置資訊。是以在STN的基礎上,針對分類和檢測提出了可變卷積[6](Deformable Convolution)(以下簡稱DC)子產品,來動态調節感受野的作用。

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

由于采樣點可能是小數,這就需要雙線性插值操作。為了學習到采樣偏移,DC采用圖6的結構,其中下路是标準的3×3卷積,上路也是一個3×3卷積,步長一樣,輸出偏移場與輸入特征圖的大小一緻,通道數是輸出特征圖通道的2倍。随後裁剪出卷積核相對的那一塊區域,得到偏移量。與下一路的标準卷積進行相加,然後線性插值,确定采樣點坐标,最後進行卷積操作即可。

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

3.實驗結果

為了避免其它因素對實驗結果的影響,網絡均不采用ImageNet的預訓練模型。為了快速的疊代以及後續計算的限制,主幹網絡的模型改為ResNet50。本次實驗采用SGD優化器,訓練的軟體平台為Pytorch,硬體平台為Tesla K40c由于現存的限制,訓練的圖檔經過尺度縮放為(800,800)訓練,以0.5的機率随機翻轉圖像。

具體的實驗配置如表1所示:

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

當使用各種子產品對Mask RCNN算法進行改進之後,bbox AP和segm AP名額在訓練過程中的變換情況,如圖7所示:

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

對訓練過程中最優的模型在驗證集上的各項AP名額的統計如表2所示:

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

需要指出的是,一般WS和GN是聯合使用。從訓練過程中AP的變化曲線可以看出,GN處理後的網絡,AP大體上始終高于BN處理後的網絡。這正是因為當圖檔批次較小時,BN估計的均值與方差不準确,使得網絡的每個子網絡輸入的資料存在較大的差異,訓練的效率較低,且驗證集上的AP較低。由于分割任務較難,導緻segm AP上的性能提升相對于bbox AP性能的提升較低。GN處理後的網絡在兩個名額上依然抖動劇烈,這從側面驗證了,WS的确可以平滑損失空間。由于損失空間的平滑,這使得網絡收斂效果更好,在較短時間内可以找到局部最優點,網絡訓練效率提升。在訓練初期可變卷積和正常卷積的性能相當,這是因為偏移量此時并沒有學習好。但是随着偏移網絡的逐漸學習,後期可變卷積的性能已大幅超越正常卷積。

從最優的模型各個檢測名額可以看出,可變卷積大幅提高了網絡的性能,在AP75名額上,可變卷積更是大幅度的提高了2.7個點。同時在segm AP名額上的性能提升,依然可觀,提升了2.5個點。平均名額的收益大部分來源于這兩個名額的貢獻。實驗結果表明,針對遙感圖像中的不同的大小、姿态、視角變化甚至非剛體形變的問題,可變卷積可以有效的改善這些問題。

最終的網絡,本文采用主幹網絡ResNeXt-101_32x8d,然後引入上述的三個子產品對Mask RCNN網絡進行改進,最終的Mask RCNN算法的性能表現如表3所示。

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

本文中的Mask RCNN算法并不能稱之為嚴格的艦船目标執行個體分割,因為資料集的限制,并沒有充分的精準的艦船目标輪廓标注資料,隻能将艦船目标的選裝框标注近似看作是掩模标注資訊。這對于較小的艦船是适用的,因為旋轉框與掩模标注相差不大,但是對于航母、護衛艦這種級别的艦船,輪廓标注的資訊就有所缺失,這就導緻訓練的Mask RCNN模型有所偏差。

從檢測結果可以看出Mask RCNN對于艦船輪廓的邊緣缺失做到了有效的提取,實作了執行個體分割,但是小目标存在較大的漏警率,大目标和中等目标檢測效果良好。

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測

4.結論

在不增加網絡深度和網絡複雜度的條件下,使用了幾種算法對Mask RCNN算法的性能進行提升。Mask RCNN算法由于模型較大,計算機的顯存的限制,batch size一般為1,BN的使用将會帶來較大的誤差。為此引入GN對此問題進行改善,改善後的Mask RCNN算法性能有大幅度的提升,同時為了減小Lipschitz限制條件的常數,引用WS算法平滑損失函數空間。針對遙感目标不同的大小、姿态、視角變化,利用可變卷積對艦船目标特征偏移性采樣。基于GN、WS、DC的對比實驗,均顯示了三種算法的優越性。最後采用複雜的主幹網絡聯合這三種優化方法,實驗結果顯示Mask RCNN算法對大、中、小目标均達到較高的檢測性能。

來源:人民網研究院

參考文獻

[1] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]. Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969.

[2] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 2117-2125.

[3] Wu Y, He K. Group normalization[C]. Proceedings of the European Conference on Computer Vision (ECCV). 2018: 3-19.

[4] Siyuan Qiao, Huiyu Wang, Chenxi Liu, Wei Shen, Alan Loddon Yuille. Weight Standardization. arXiv:1903.10520.

[5] Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[C]. Advances in neural information processing systems. 2015: 2017-2025.

[6] Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[C]. Proceedings of the IEEE international conference on computer vision. 2017: 764-773.

[7] Xia G S, Bai X, Ding J, et al. DOTA: A large-scale dataset for object detection in aerial images[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 3974-3983.

智能衛星研究院

圖像旋轉 錯切算法原理_基于Mask RCNN算法的遙感圖像艦船目标旋轉檢測
上一篇: 表資訊

繼續閱讀