天天看點

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

作者:極市平台

作者丨李宇軒@知乎(已授權)

來源丨https://zhuanlan.zhihu.com/p/614449075

編輯丨極市平台

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

Paper:https://arxiv.org/pdf/2303.09030.pdf

代碼:https://github.com/zcablii/Large-Selective-Kernel-Network

Abstract

最近關于遙感物體檢測的研究主要集中在改進旋轉包圍框的表示方法上,但忽略了遙感場景中出現的獨特的先驗知識。這種先驗知識是非常重要的,因為微小的遙感物體可能會在沒有參考足夠長距離背景的情況下被錯誤地檢測出來,而不同類型的物體所要求的長距離背景可能會有所不同。在本文中,我們将這些先驗因素考慮在内,并提出了Large Selective Kernel Network(LSKNet)。LSKNet可以動态地調整其大空間感受野,以更好地模組化遙感場景中各種物體的測距的場景。據我們所知,這是首次在遙感物體檢測領域探索大選擇性卷積核機制的工作。在沒有任何附加條件的情況下,我們LSKNet比主流檢測器輕量的多,而且在多個資料集上重新整理了SOTA!HRSC2016(98.46% mAP)、DOTA-v1.0(81.64% mAP)和FAIR1M-v1.0(47.87% mAP)。

Introduction

近期很少有工作考慮到遙感圖像中存在的強大的先驗知識。航空圖像通常是以高分辨率的鳥瞰視角拍攝的。特别是,航空圖像中的大多數物體可能是小尺寸的,僅憑其外觀很難識别。相反,這些物體的成功識别往往依賴于它們的背景,因為周圍的環境可以提供關于它們的形狀、方向和其他特征的寶貴線索。根據對主流遙感資料集的分析,我們确定了兩個重要的前提條件:

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

圖1. 成功地檢測遙感目标需要使用廣泛的背景資訊。感受野有限的探測器可能很容易導緻錯誤的探測結果。CT :Context

(1)準确檢測遙感圖像中的物體往往需要廣泛的背景資訊。

如圖1(a)所示,遙感圖像中的物體檢測器所使用的有限範圍的背景往往會導緻錯誤的分類。例如,在上層圖像中,由于其典型特征,檢測器可能将T子路口歸類為十字路口,但實際上,它不是一個十字交路口。同樣,在下圖中,由于大樹的存在,檢測器可能将十字路口歸類為非路口,但這也是不正确的。這些錯誤的發生是因為檢測器隻考慮了物體附近的有限的上下文資訊。在圖1(b)中的船舶和車輛的例子中也可以看到類似的情況。

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

圖2. 按照人類的标準,不同的物體類型所需要的背景資訊範圍非常不同。紅框是目标GT标注。

(2) 不同類型的物體所需的上下文資訊的範圍非常不同。

如圖2所示,在遙感圖像中進行準确的物體檢測所需的背景資訊量會因被檢測物體的類型而有很大不同。例如,足球場可能需要相對較少的額外環境資訊,因為它有獨特的可區分的球場邊界線。相比之下,環島可能需要更大範圍的上下文資訊,以區分花園和環形建築。交叉口,特别是那些部分被樹木覆寫的交叉口,由于相交道路之間的長距離依賴性,往往需要一個非常大的感受野。這是因為樹木和其他障礙物的存在會使人們難以僅僅根據外觀來識别道路和交叉口本身。其他物體類别,如橋梁、車輛和船舶,也可能需要不同規模的感受野,以便被準确檢測和分類。

因為這些圖像往往需要廣泛和動态的背景資訊,我們提出了一種新的方法,稱為Large Selective Kernel Network(LSKNet)。我們的方法包括動态調整特征提取骨幹的感受野,以便更有效地處理被檢測物體的不同的廣泛背景。這是通過一個空間選擇機制來實作的,該機制對一連串的大depth-wise卷積核所處理的特征進行有效權重,然後在空間上将它們合并。這些核的權重是根據輸入動态确定的,允許該模型自适應地使用不同的大核,并根據需要調整空間中每個目标的感受野。據我們所知,我們提出的LSKNet是第一個研究和讨論在遙感物體探測中使用大的和有選擇性的卷積核的模型。盡管我們的模型很簡單,但在三個流行的資料集上實作了最先進的性能。HRSC2016(98.46% mAP)、DOTA-v1.0(81.64% mAP)和FAIR1M-v1.0(47.87% mAP),超過了之前公布的結果。此外,我們實驗證明了我們模型的行為與上述兩個先驗假設的一緻性。

Method

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

圖3. LSK Block 圖示

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

圖4. LSK Module 的概念圖。

LSKNet Architecture

圖3展示了一個LSKNet Bolck的圖示,是主幹網中的一個重複塊,其靈感來自ConvNeXt, PVT-v2, VAN, Conv2Former 和 MetaFormer。每個LSKNet塊由兩個剩餘子塊組成:大核選擇(LK Selection)子塊和前饋網絡(FFN)子塊。LK選擇子塊根據需要動态地調整網絡的感受野。前饋網絡子塊用于通道混合和特征細化,由一個全連接配接層、一個深度卷積、一個GELU激活和第二個全連接配接層組成的序列。核心子產品LSK Module(圖4)被嵌入到LK選擇子塊中。它由一連串的大核心卷積和一個空間核心選擇機制組成。

Large Kernel Convolutions & Spatial Kernel Selection

根據Introduction中所說的先驗(2),建議對一系列的多個尺度的背景進行模組化,以進行适應性選擇。是以,我們建議通過明确地将其分解為一連串具有大的卷積核和不斷擴張的depth-wise卷積來建構一個更大感受野的網絡。其序列中第i個深度卷積的核大小k、擴張率d和感受野RF的擴充定義如下:

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

核的大小和擴張率的增加確定了感受野有足夠快的擴充。我們對擴張率設定了一個上限,以保證擴張卷積不會在特征圖之間引入空隙。

所提出的設計有兩個優點。第一,它明确地産生了具有各種大感受野的多個特征,這使得後來的核心選擇更加容易。第二,順序分解比簡單地應用一個較大的核更有效更高效。為了提高網絡關注檢測目标的最相關的空間背景區域的能力,我們使用了一種空間選擇機制,從不同尺度的大卷積核中空間選擇特征圖。圖4顯示了LSK子產品的詳細概念圖,在這裡我們直覺地展示了大選擇核是如何通過自适應地收集不同物體的相應大感受野而發揮作用的。

LSK Module 的pytorch代碼如下:

class LSKmodule(nn.Module):
    def __init__(self, dim):
        super().__init__()
        self.conv0 = nn.Conv2d(dim, dim, 5, padding=2, groups=dim)
        self.convl = nn.Conv2d(dim, dim, 7, stride=1, padding=9, groups=dim, dilation=3)
        self.conv0_s = nn.Conv2d(dim, dim//2, 1)
        self.conv1_s = nn.Conv2d(dim, dim//2, 1)
        self.conv_squeeze = nn.Conv2d(2, 2, 7, padding=3)
        self.conv_m = nn.Conv2d(dim//2, dim, 1)

    def forward(self, x):   
        attn1 = self.conv0(x)
        attn2 = self.convl(attn1)

        attn1 = self.conv0_s(attn1)
        attn2 = self.conv1_s(attn2)
        
        attn = torch.cat([attn1, attn2], dim=1)
        avg_attn = torch.mean(attn, dim=1, keepdim=True)
        max_attn, _ = torch.max(attn, dim=1, keepdim=True)
        agg = torch.cat([avg_attn, max_attn], dim=1)
        sig = self.conv_squeeze(agg).sigmoid()
        attn = attn1 * sig[:,0,:,:].unsqueeze(1) + attn2 * sig[:,1,:,:].unsqueeze(1)
        attn = self.conv_m (attn)
        return x * attn
           

Results

在我們的實驗中,我們報告了HRSC2016、DOTA-v1.0和FAIR1M-v1.0資料集上的檢測模型結果。為了保證公平性,我們遵循與其他主流方法相同的資料集處理方法和訓練方式(如 S2AS^2AS^2A -Net, Oriented RCNN, R3Det...)。

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

表1. LSKNet-T和ResNet-18作為骨幹網在DOTA-v1.0上的不同檢測架構的比較。LSKNet-T骨幹網在ImageNet上進行了100次預訓練。與ResNet-18相比,輕量級的LSKNet-T在各種架構中取得了明顯更高的mAP。

在不同檢測架構下,使用我們的LSKNet骨幹,模型更輕量,對檢測模型性能提升巨大!(表1)

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

表2. 在DOTA-v1.0的O-RCNN架構下,LSKNet-S和其他(大核/選擇性注意)骨幹的比較,除了Prev Best是在RTMDet下。所有骨幹網都在ImageNet上進行了100次預訓練。我們的LSKNet在類似的複雜度預算下實作了最佳的mAP,同時超過了之前的最佳公開記錄。

在相同檢測架構的不同骨幹網絡(大卷積核和選擇性機制的骨幹網絡)中,在相似模型複雜的的前提下,我們的LSKNet骨幹mAP更強!(表2)

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

表3. 在HRSC2016資料集上與最先進的方法比較。

在HRSC2016資料集上,性能超越之前所有的方法!(表3)

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

表4. 在多尺度訓練和測試的DOTA-v1.0資料集上與最先進的方法進行比較

在DOTA-v1.0資料集上,性能超越之前所有的方法!(表4)在此資料集上,(近期的方法在性能上近乎飽和,最近的SOTA方法RVSA用了極為重量的模型和在龐大的資料集上做預訓練才勉強突破0.81的mAP,RTMDet則是在COCO預訓練,36epoch加EMA的微調方式,而其他主流方法都是ImageNet預訓練和12epoch w/o EMA微調,才達到81.33的性能。)我們的方法在模型參數量和計算複雜度全面小于其他方法的前提下,性能重新整理了新的SOTA!

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

表5. 在FAIR1M-v1.0資料集上與最先進的方法比較。*: 結果參考了FAIR1M論文[51]。

在近期中國空天院提出的FAIR1M-v1.0資料集上,我們也重新整理了mAP。

Ablation Study

消融實驗部分,為了提高實驗效率,我們采用LSKNet-T骨架在ImageNet上做100個epoch的骨幹預訓練。

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

表6. 分解的大核的數量對推理的FPS和mAP的影響,給定的理論感受野是29。将大核分解成兩個深度方向的核,實作了速度和精度的最佳表現。

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

表7. 當大卷積被分解成兩個連續的depth-wise卷積時,LSKNet的關鍵設計元件的有效性。CS:通道選擇(類似于SKNet);SS:空間選擇(我們的)。LSKNet在使用一個合理的大的感受野和空間選擇時取得了最佳性能。

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

表8. 對我們提出的LSK子產品的空間選擇中的最大和平均池化的有效性進行消融實驗。在同時使用最大和平均池化時,獲得了最好的結果。

Analysis

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

圖5. 使用ResNet-50和LSKNet-S的O-RCNN檢測架構的Eigen-CAM可視化。我們提出的LSKNet可以對長範圍的上下文資訊進行模組化,進而在各種困難的情況下獲得更好的性能。

圖5所示,LSKNet-S可以捕捉到更多與檢測到的目标相關的背景資訊,進而在各種困難情況下有更好的表現,這證明了我們的先驗(1)。

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

圖6. DOTA-v1.0中物體類别的預期感受野和GT框面積的比率:Rc。不同物體類别所需的相對範圍有很大的不同。

為了研究每個物體類别的感受野範圍,我們定義物體類别預期感受野和GT框面積的比率:Rc。此數值越大,說明目标需要的額外感受野越大。 圖6中結果表明,與其他類别相比,橋梁類别需要更多的額外上下文資訊,這主要是由于它與道路的特征相似,并且需要語境線索來确定它是否被水所包圍。相反,球場類别,如足球場,由于其獨特的紋理屬性,特别是球場邊界線,需要最少的上下文資訊。這與我們的常識相吻合,并進一步支援先前的觀點(2),即不同的物體類别所需的上下文資訊的相對範圍有很大不同。

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

圖7. DOTA-v1.0中物體類别的感受野激活,其中激活圖來自我們訓好的LSKNet模型根據主論文公式(8)(即空間激活)得出。物體類别按照從左上到右下的順序,據預期感受野面積和GT框面積之比遞減排列(及圖6中的數值順序)

我們進一步研究我們的LSKNet中的大核選擇傾向性行為。我們定義了Kernel Selection Difference(較大的感受野卷積核特征圖激活值 - 較小的感受野卷積核特征圖激活值)。

ICCV23|LSKNet:遙感旋轉目标檢測新SOTA!

圖8. 橋梁、環島和足球場的LSKNet-T塊中的大卷積核選擇差異。B i j代表第i階段的第j個LSK Block,數值越大,表明檢測時更傾向于選擇有更大感受野的卷積核,對更大範圍的背景的依賴性也越大。

在圖8中,我們展示了三個典型類别的所有圖像的歸一化Kernel Selection Difference:橋梁、環形路和足球場,以及每個LSKNet-T塊的情況。正如預期的那樣,Bridge的所有塊的大核的參與度高于Roundabout,而Roundabout則高于Soccer-ball-field。這與常識一緻,即Soccer-ball-field确實不需要大量的上下文,因為它本身的紋理特征已經足夠明顯和具有鑒别性。我們還出人意料地發現了LSKNet在網絡深度上的另一種選擇模式。LSKNet通常在其淺層利用較大感受野的卷積核,而在較高的層次利用較小的。這表明,網絡傾向于在網絡淺層迅速擴大感受野捕捉資訊,以便高層次的語義學能夠包含足夠的感受野,進而獲得更好的辨識力。

繼續閱讀