arXiv 2021
Hu Zhang, Keke Zu, Jian Lu, Yuru Zou, Deyu Meng
論文位址
一、簡介
目前存在的注意力機制存在兩個問題:1)如何有效的捕獲和利用不同比例尺度的maps的空間資訊,豐富maps的空間;2)通道和空間注意力隻能捕獲局部資訊,而不能建立長期的通道依賴關系。
提出了一種新的輕量級、高效的注意力配置設定方法——金字塔分裂注意子產品(PSA)。并且,将ResNet的block中的3×3的卷積替換為PSA,進而得到一個新的block名為搞笑金字塔分裂注意(EPSA),該塊能夠在更細粒度的層次上有效地提取多尺度空間資訊,并形成長距離通道依賴性。
通過堆疊EPSA子產品,提出了一種新的骨幹網絡EPSANet,它能夠學習更加豐富的多尺度特征表示,并自适應的重新較準跨維通道注意權重。
二、方法
2.1 通道注意力思考
通道注意力機制允許網絡選擇性的對每個通道的重要性進行權重,進而生成更具資訊性的輸出。SE子產品由壓縮和激勵兩部分組成,分别用于編碼全局資訊和自适應的重新較準通道關系。
通道統計可以通過使用全局平局池化層來生成,用于将全局空間資訊嵌入到通道描述符中。随後,通過兩個完全連接配接層,可以更有效地組合通道間地線性資訊,有利于高、低通道維數資訊地互動。最後,激勵函數Sigmoid,可以在通道互相作用後給通道指派,進而更有效地提取資訊。
2.2 PSA子產品
PSA子產品主要分為四個步驟:
- 通過實作 Split 和 Concat(SPC)得到通道方向地多尺度特征maps;
- 利用SEWeight提取不同尺度特征maps地關注度,得到通道方向地關注度矢量;
- 利用Softmax對通道關注向量進行重新校準,得到多尺度通道地重新較準權重;
- 對重新較準地權重和對應地特征圖應用逐元素乘積地運算,最後得到更豐富地多尺度特征資訊的精化特征圖。
在金字塔結構中使用多尺度卷積核可以産生不同空間分辨率和深度,對于每個分割的部分,他獨立地學習多尺度空間資訊,并以本地方式建立跨通道互動。為了不增加計算量的情況下,處理不同尺度下的輸入張量,引入了一種分組卷積方法,并将其并行應用于卷積核。其中多尺度核大小群組大小之間的關系可以寫為:
多尺度特征maps的生成函數如下:
拼接得到處理後的特征maps:
上圖為SPC操作,我看了代碼,發現作者并沒有先split操作,直接通過金字塔組卷積将其分為四個部分,然後拼接在一起。
随後,對每一組特征進行分别進行SEWeight提取通道注意權重,然後将四組權重拼接在一塊,然後使用Softmax,具體公式如下:
我們提出的PSA子產品可以将多尺度空間資訊和跨通道注意力整合到每個分割的特征組的塊中。是以,我們提出的PSA模型可以更好地實作局部和全局通道注意力之間的資訊互動。
2.3 網絡設計
EPSANet繼承了EPSA塊的優點,具有很強的多尺度表示能力,并能自适應地重新校準跨維通道權重。