天天看點

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

目錄

  • 📝論文下載下傳位址
  • 🔨代碼下載下傳位址
  • 👨‍🎓論文作者
  • 📦模型講解
    • [背景介紹]
    • [論文解讀]
        • [VIF-Net網絡結構]
        • [M-SSIM+TV損失]
            • [SSIM]
            • [TV]
        • [VIF-Net的訓練]
    • [結果分析]
        • [評價名額]
            • [ M I MI MI]
            • [ Q A B / F Q^{AB/F} QAB/F]
            • [ P C PC PC]
            • [ Q N C I E Q^{NCIE} QNCIE]
            • [ U I Q I UIQI UIQI]
        • [不同方法之間的對比實驗]
        • [不同λ之間的對比實驗]
        • [推理時間對比]
        • [擴充實驗-視訊融合]
    • [實踐結果]
  • 🚪傳送門

📝論文下載下傳位址

   [論文位址]

🔨代碼下載下傳位址

   [代碼位址-unofficial]

👨‍🎓論文作者

Ruichao Hou, Dongming Zhou, Rencan Nie, Dong Liu, Lei Xiong, Yanbu Guo, and Chuanbo Yu

📦模型講解

[背景介紹]

   圖像融合時資訊融合的一種,本質就是增強技術,運用多傳感器獲得的不同資料來提高網絡性能。相對于單傳感器的資料局限于一種資料的特性,多傳感器能同時利用多中資料的特性,在視訊監控、衛星成像、軍事上都有很好的發展前景。對于本文來說,可見圖像提供了豐富的紋理細節和環境資訊,而紅外圖像則受益于夜間可見性和對高動态區域的抑制。如下圖所示,左邊時紅外圖像,右邊是可見光圖像。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

   圖像融合最關鍵的技術是怎麼樣能融合利用多種資料的優勢。往往引入多種資料是雙面性的,是以要抑制資料的不同帶來的幹擾。例如做變化檢測的時候,往往因為成像不同而網絡會錯誤地檢測為變化。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

   上圖展示了圖像融合的基本操作,将可見光和紅外圖像同時輸入網絡中,進行特征提取,之後進行特征融合,最後特征重建,生成融合圖像。中間網絡的部分也就是作者提出的VIF-Net。

[論文解讀]

   作者主要針對其他融合方法有計算成本的局限性,而且需要手動設計融合規則。由此,作者提出了自适應的端到端深度融合架構VIF-Net,旨在生成資訊更豐富的圖像,包含大量的熱資訊和紋理細節。

[VIF-Net網絡結構]

   VIF-Net的全稱為Visible and Infrared image Fusion Network就是可見光和紅外圖像融合網絡。VIF-Net體系結構如下圖所示,它由三個主要元件組成:特征提取,融合和重建。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

   可見圖像和紅外圖像分别表示為 I A I_A IA​和 I B I_B IB​,它們輸入到雙通道中。通道 A A A由 C 11 C11 C11和包含 D 11 D11 D11、 D 21 D21 D21和 D 31 D31 D31的block組成。通道 B B B由 C 12 C12 C12和一個包含 D 12 D12 D12, D 22 D22 D22和 D 32 D32 D32的block組成。第一層( C 11 C11 C11和 C 12 C12 C12)包含3×3的卷積以提取底層特征,每個 D D D中的三個卷積層也都是3×3的卷積。由于這兩個通道共享相同的權重以提取相同類型的深度特征,是以此結構在降低計算複雜度方面也具有優勢。在特征融合部分,作者嘗試直接連接配接深層特征,也就是通道進行疊加。最後,特征融合層的結果通過另外五個卷積層( C 2 C2 C2, C 3 C3 C3, C 4 C4 C4, C 5 C5 C5和 C 6 C6 C6)來從融合特征中重建融合結果。下表概述了網絡的更詳細的體系結構:

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

   從表格的結構可以看出,假設輸出都是單通道的圖像,經過前面的特征提取層,每一層的輸出都會與後面所有層的輸出直接相連,這裡是通道疊加。這樣,可見光通道會輸出 16 + 16 + 16 + 16 = 64 16+16+16+16=64 16+16+16+16=64通道的特征圖,兩個網絡通道會生成 128 128 128通道,在特征融合層進行通道疊加,輸入特征重建的就是 128 128 128通道的特征圖。

[M-SSIM+TV損失]

   從上面的結構圖可以看到,損失函數主要分為兩部分 L S S I M L_{SSIM} LSSIM​和 L T V L_{TV} LTV​,作者設計的損失函數為:

L o s s = λ L S S I M + L T V Loss=λL_{SSIM}+L_{TV} Loss=λLSSIM​+LTV​

[SSIM]

   SSIM是一種衡量圖像結構相似性的算法,結合了圖像的亮度,對比度和結構三方面對圖像品質進行測量。原本的SSIM公式為:

S S I M ( x , y ) = [ l ( x , y ) ] α × [ c ( x , y ) ] β × [ s ( x , y ) ] γ SSIM(x,y)=[l(x,y)]^α×[c(x,y)]^β×[s(x,y)]^γ SSIM(x,y)=[l(x,y)]α×[c(x,y)]β×[s(x,y)]γ

其中 l ( x , y ) l(x,y) l(x,y)為亮度部分:

l ( x , y ) = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 l(x,y)=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1} l(x,y)=μx2​+μy2​+C1​2μx​μy​+C1​​

其中 c ( x , y ) c(x,y) c(x,y)為對比度部分:

c ( x , y ) = 2 σ x σ y + C 2 σ x 2 + σ y 2 + C 2 c(x,y)=\frac{2σ_xσ_y+C_2}{σ_x^2+σ_y^2+C_2} c(x,y)=σx2​+σy2​+C2​2σx​σy​+C2​​

其中 s ( x , y ) s(x,y) s(x,y)為結構部分:

s ( x , y ) = σ x y + C 3 σ x σ y + C 3 s(x,y)=\frac{σ_{xy}+C_3}{σ_xσ_y+C_3} s(x,y)=σx​σy​+C3​σxy​+C3​​

其中 μ x μ_x μx​與 μ y μ_y μy​是圖像的像素平均值, σ x σ_x σx​和 σ y σ_y σy​為像素的标準差, σ x y σ_{xy} σxy​為 x y xy xy的協方差, C 1 C_1 C1​、 C 2 C_2 C2​和 C 3 C_3 C3​是常數,防止分母為0。一般情況下, α = β = γ = 1 、 C 2 = 2 × C 3 α=β=γ=1、C_2=2×C_3 α=β=γ=1、C2​=2×C3​則:

S S I M ( x , y ) = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 × 2 σ x σ y + 2 C 3 σ x 2 + σ y 2 + 2 C 3 × σ x y + C 3 σ x σ y + C 3 = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 × 2 σ x y + 2 C 3 σ x 2 + σ y 2 + 2 C 3 = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 × 2 σ x y + C 2 σ x 2 + σ y 2 + C 2 SSIM(x,y)=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_xσ_y+2C_3}{σ_x^2+σ_y^2+2C_3}×\frac{σ_{xy}+C_3}{σ_xσ_y+C_3} \\=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_{xy}+2C_3}{σ_x^2+σ_y^2+2C_3}\\=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_{xy}+C_2}{σ_x^2+σ_y^2+C_2} SSIM(x,y)=μx2​+μy2​+C1​2μx​μy​+C1​​×σx2​+σy2​+2C3​2σx​σy​+2C3​​×σx​σy​+C3​σxy​+C3​​=μx2​+μy2​+C1​2μx​μy​+C1​​×σx2​+σy2​+2C3​2σxy​+2C3​​=μx2​+μy2​+C1​2μx​μy​+C1​​×σx2​+σy2​+C2​2σxy​+C2​​

   作者認為圖像分辨率很低亮度就不是很重要,是以去除了亮度,重寫公式:

S S I M M ( x , y ∣ W ) = 2 σ x y + C σ x 2 + σ y 2 + C SSIM_M(x,y|W)=\frac{2σ_{xy}+C}{σ_x^2+σ_y^2+C} SSIMM​(x,y∣W)=σx2​+σy2​+C2σxy​+C​

根據以上公式可以計算 S S I M M ( I A , I F ∣ W ) SSIM_M(I_A,I_F|W) SSIMM​(IA​,IF​∣W)和 S S I M M ( I B , I F ∣ W ) SSIM_M(I_B,I_F|W) SSIMM​(IB​,IF​∣W),其中 W W W代表一個滑動視窗,大小為 m × n m×n m×n,作者設定視窗為 11 × 11 11×11 11×11、 C = 9 × 1 0 − 4 C=9×10^{-4} C=9×10−4,利用這個公式來衡量 I F I_F IF​與 I A I_A IA​或者 I B I_B IB​哪個更相似。例如 S S I M M ( I B , I F ∣ W ) > S S I M M ( I A , I F ∣ W ) SSIM_M(I_B,I_F|W)>SSIM_M(I_A,I_F|W) SSIMM​(IB​,IF​∣W)>SSIMM​(IA​,IF​∣W)則 I F I_F IF​與 I B I_B IB​在視窗 W W W中更相似, I F I_F IF​在視窗 W W W保留更多紅外的資訊。這樣就能按以下公式自适應學習深度特征:

E ( I ∣ W ) = 1 m × n ∑ i = 1 m × n P i E(I | W)=\frac{1}{m \times n} \sum_{i=1}^{m \times n} P_{i} E(I∣W)=m×n1​i=1∑m×n​Pi​

 Score  ( I A , I B , I F ∣ W ) = { SSIM ⁡ M ( I A , I F ∣ W )  if  E ( I A ∣ W ) > E ( I B ∣ W ) SSIM ⁡ M ( I B , I F ∣ W )  if  E ( I A ∣ W ) ≤ E ( I B ∣ W ) \text { Score }\left(I_{A}, I_{B}, I_{F} | W\right)=\left\{\begin{array}{l} \operatorname{SSIM}_{M}\left(I_{A}, I_{F} | W\right) \text { if } E\left(I_{A} | W\right)>E\left(I_{B} | W\right) \\ \operatorname{SSIM}_{M}\left(I_{B}, I_{F} | W\right) \text { if } E\left(I_{A} | W\right) \leq E\left(I_{B} | W\right) \end{array}\right.  Score (IA​,IB​,IF​∣W)={SSIMM​(IA​,IF​∣W) if E(IA​∣W)>E(IB​∣W)SSIMM​(IB​,IF​∣W) if E(IA​∣W)≤E(IB​∣W)​

L S S I M = 1 − 1 N ∑ W = 1 N Score ⁡ ( I A , I B , I F ∣ W ) L_{S S IM}=1-\frac{1}{N} \sum_{W=1}^{N} \operatorname{Score}\left(I_{A}, I_{B}, I_{F} | W\right) LSSIM​=1−N1​W=1∑N​Score(IA​,IB​,IF​∣W)

   上面第一個公式是計算視窗内的平均值,之後計算SSIM如果包含更多 A A A的資訊,那麼将 S S I M M ( I A , I F ∣ W ) SSIM_M(I_A,I_F|W) SSIMM​(IA​,IF​∣W)作為得分;如果包含更多 B B B的資訊,那麼将 S S I M M ( I B , I F ∣ W ) SSIM_M(I_B,I_F|W) SSIMM​(IB​,IF​∣W)作為得分。第三個公式給出了 L S S I M L_{SSIM} LSSIM​的計算方法, N N N為滑窗的總個數,将其取平均值後與1相減作為損失函數。

[TV]

   TV全稱是Total Variation譯為總體變化,是一種衡量圖檔噪聲的名額,傳統的TV計算的公式為:

R V β ( x ) = ∑ i , j ( ( x i , j + 1 − x i j ) 2 + ( x i + 1 , j − x i j ) 2 ) β 2 \mathcal{R}_{V^{\beta}}(\mathbf{x})=\sum_{i, j}\left(\left(x_{i, j+1}-x_{i j}\right)^{2}+\left(x_{i+1, j}-x_{i j}\right)^{2}\right)^\frac{β}{2} RVβ​(x)=i,j∑​((xi,j+1​−xij​)2+(xi+1,j​−xij​)2)2β​

其中, x i x_i xi​代表一個像素,将其與水準方向+1的像素做差的平方,和垂直方向+1的像素做差的平方,兩者之和開 β 2 \frac{β}{2} 2β​次方,對每個像素求和(除最後一行和列像素),這樣就計算出TV。是以如果他有噪聲的話,TV會明顯變大,因為像素之間的變化會很大。然而,TV很小的話,圖像會很模糊,因為相近的像素相等TV最小。作者運用以下公式求取 L T V L_{TV} LTV​。

R ( i , j ) = I A ( i , j ) − I F ( i , j ) L T V = ∑ i , j ( ∥ R ( i , j + 1 ) − R ( i , j ) ∥ 2 + ∥ R ( i + 1 , j ) − R ( i , j ) ∥ 2 ) \begin{array}{c} R(i, j)=I_{A}(i, j)-I_{F}(i, j) \\ L_{T V}=\sum_{i, j}\left(\|R(i, j+1)-R(i, j)\|_{2}+\|R(i+1, j)-R(i, j)\|_{2}\right) \end{array} R(i,j)=IA​(i,j)−IF​(i,j)LTV​=∑i,j​(∥R(i,j+1)−R(i,j)∥2​+∥R(i+1,j)−R(i,j)∥2​)​

   首先對 I A I_A IA​和 I F I_F IF​對應像素相減,得到 R ( i , j ) R(i,j) R(i,j),對 R ( i , j ) R(i,j) R(i,j)求TV,作者取 β = 2 β=2 β=2。接下來作者提到, L S S I M L_{SSIM} LSSIM​和 L T V L_{TV} LTV​不在統一數量級, L S S I M L_{SSIM} LSSIM​會比 L T V L_{TV} LTV​低 1 0 2 − 1 0 3 10^2-10^3 102−103。是以,這會導緻網絡更偏重于TV,使得圖像分辨率,對比度較低,這也符合TV過低的情況。作者于是引入平衡參數 λ λ λ使兩種損失函數在同一水準上。

L o s s = λ L S S I M + L T V Loss=λL_{SSIM}+L_{TV} Loss=λLSSIM​+LTV​

[VIF-Net的訓練]

   作者從公開可用的TNO圖像資料集和INO視訊資料集中收集了25對覆寫不同場景的可見和紅外圖像。 由于此資料集太小而無法滿足訓練要求,是以裁剪了約25000個尺寸為64×64的更新檔,以擴充訓練資料集而沒有任何人工标簽; 資料集的樣本如下圖所示。此外,作者将網絡訓練了50個epoch,使用Adam優化器以 1 0 − 4 10^{-4} 10−4的學習率将損失。 作者的網絡是在TensorFlow上實作的,并在配備Intel E5 2670 2.6 GHz CPU,16 GB RAM和NVIDIA GTX1080Ti GPU的PC上進行了訓練。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

[結果分析]

[評價名額]

   為了防止主觀視覺的人為因素,作者使用物種可靠的量化名額:互資訊/mutual information/ M I MI MI、邊緣保持/edge retentiveness/ Q A B / F Q^{AB/F} QAB/F、相位一緻性/phase congruency/ P C PC PC、非線性相關資訊熵/nonlinear correlation information entropy/ Q N C I E Q^{NCIE} QNCIE、通用圖像品質指數/universal image quality index/ U I Q I UIQI UIQI。

[ M I MI MI]

   M I MI MI分數越高,表示從源圖像獲得的資訊越豐富。公式如下: M I = ∑ i A ∈ I A F ∑ i ∈ I F p ( i A , i F ) log ⁡ 2 p ( i A , i F ) p ( i A ) p ( i F ) + ∑ i B ∈ I B ∑ i F ∈ I F p ( i B , i F ) log ⁡ 2 p ( i B , i F ) p ( i B ) p ( i F ) M I=\sum_{i_{A} \in I_{A_{F}}} \sum_{i \in I_{F}} p\left(i_{A}, i_{F}\right) \log _{2} \frac{p\left(i_{A}, i_{F}\right)}{p\left(i_{A}\right) p\left(i_{F}\right)}+\sum_{i_{B} \in I_{B}} \sum_{i_{F} \in I_{F}} p\left(i_{B}, i_{F}\right) \log _{2} \frac{p\left(i_{B}, i_{F}\right)}{p\left(i_{B}\right) p\left(i_{F}\right)} MI=iA​∈IAF​​∑​i∈IF​∑​p(iA​,iF​)log2​p(iA​)p(iF​)p(iA​,iF​)​+iB​∈IB​∑​iF​∈IF​∑​p(iB​,iF​)log2​p(iB​)p(iF​)p(iB​,iF​)​

其中 p ( i A , i F ) p(i_A,i_F) p(iA​,iF​)為 i A i_A iA​與 i F i_F iF​的聯合機率分布, p ( i A ) p(i_A) p(iA​)為 i A i_A iA​的邊緣機率分布。

[ Q A B / F Q^{AB/F} QAB/F]

   Q A B / F Q^{AB/F} QAB/F測量了從原圖像到融合圖像轉移的圖像邊緣數量。公式如下:

Q A B / F = ∑ i = 1 N ∑ j = 1 M ( Q A F ( i , j ) w A ( i , j ) + Q B F ( i , j ) w B ( i , j ) ) ∑ i N ∑ j M ( w A ( i , j ) + w B ( i , j ) ) Q^{AB/F}=\frac{\sum_{i=1}^{N} \sum_{j=1}^{M}\left(Q^{A F}(i, j) w^{A}(i, j)+Q^{B F}(i, j) w^{B}(i, j)\right)}{\sum_{i}^{N} \sum_{j}^{M}\left(w^{A}(i, j)+w^{B}(i, j)\right)} QAB/F=∑iN​∑jM​(wA(i,j)+wB(i,j))∑i=1N​∑j=1M​(QAF(i,j)wA(i,j)+QBF(i,j)wB(i,j))​

  這裡比較難了解計算,簡單來說,會通過邊緣檢測算法(Sobel邊緣檢測算法)計算出輸入圖像和融合圖像的邊緣資訊,在通過上式得出名額,名額越高越好。具體的過程可以通路[多聚焦圖像像素級融合方法研究-總第27頁-論文頁碼第14頁-⑥]

[ P C PC PC]

   PC表示融合圖像的結構,定義如下:

P C = ( P p ) α ( P M ) β ( P m ) γ PC=(P_p)^α(P_M)^β(P_m)^γ PC=(Pp​)α(PM​)β(Pm​)γ

其中 p p p, M M M和 m m m分别是相位,最大力矩和最小力矩,且 α = β = γ = 1 α=β=γ=1 α=β=γ=1。

[ Q N C I E Q^{NCIE} QNCIE]

   Q N C I E Q^{NCIE} QNCIE度量源圖像和融合圖像之間的非線性相關熵,定義如下:

Q N C I E = 1 + ∑ i = 1 3 λ i 3 log ⁡ 256 ( λ i 3 ) Q^{N C I E}=1+\sum_{i=1}^{3} \frac{\lambda_{i}}{3} \log _{256}\left(\frac{\lambda_{i}}{3}\right) QNCIE=1+i=1∑3​3λi​​log256​(3λi​​)

其中 λ i \lambda_{i} λi​是非線性相關矩陣的特征值。

[ U I Q I UIQI UIQI]

   另外, U I Q I UIQI UIQI是一種從相關損失,亮度和對比度三個方面來測量圖像品質的評估名額。 定義如下:

U I Q I = [ 4 σ I , I F μ I μ I F ( σ I A 2 + σ I F 2 ) ( μ I A 2 + μ I F 2 ) + 4 σ I B I F μ I B μ I F ( σ I B 2 + σ I F 2 ) ( μ I B 2 + μ I F 2 ) ] 2 U I Q I=\frac{\left[\frac{4 \sigma_{I, I_{F}} \mu_{I} \mu_{I_{F}}}{\left(\sigma_{I_{A}}^{2}+\sigma_{I_{F}}^{2}\right)\left(\mu_{I_{A}}^{2}+\mu_{I_{F}}^{2}\right)}+\frac{4 \sigma_{I_{B} I_{F}} \mu_{I_{B}} \mu_{I_{F}}}{\left(\sigma_{I_{B}}^{2}+\sigma_{I_{F}}^{2}\right)\left(\mu_{I_{B}}^{2}+\mu_{I_{F}}^{2}\right)}\right]}{2} UIQI=2[(σIA​2​+σIF​2​)(μIA​2​+μIF​2​)4σI,IF​​μI​μIF​​​+(σIB​2​+σIF​2​)(μIB​2​+μIF​2​)4σIB​IF​​μIB​​μIF​​​]​

其中 μ μ μ和 σ σ σ分别表示平均值和标準偏差, σ I A I F σ_{I_AI_F} σIA​IF​​是 I A I_A IA​和 I F I_F IF​之間的互相關。

[不同方法之間的對比實驗]

   下面三個表格展示了三種圖像(“Human”、“Street”、“Kaptein”)的測試結果。可以看出VIF-Net取得不錯的性能。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門
VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門
VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

其中作者對損失函數的超參數的取值進行對比,Proposed-500/800/1000分别對應 λ = 500 / 800 / 1000 \lambda =500/800/1000 λ=500/800/1000也就是下式:

L o s s = λ L S S I M + L T V Loss=λL_{SSIM}+L_{TV} Loss=λLSSIM​+LTV​

   下圖是三種圖像的展示(自上向下是“Human”、“Street”、“Kaptein”),紅色框是一些關鍵特征,可以看出效果很好:

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

   從上圖中可以看到,由于大量的人工噪聲,RP和CBF的結果具有較差的視覺效果。 此外,DLF,ADF,CVT,DTCWT,ASR,FPDE的結果看起來非常相似,并且會産生僞像,目标尚不清楚。 此外,GFCE和GTF包含明亮而顯眼的目标,但是基于GFCE的融合圖像的背景由于細節和亮度的增強而失真。 由于GTF可以平滑紋理,是以可見的細節和邊緣會在一定程度上丢失。作者的方法會突出顯示紅外目标并保留紋理細節,進而在這些方法中提供最佳的融合性能。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

  上圖示出了“Street”的融合結果。 主要目标是将行人和路燈之類的資訊融合到單個圖像中,并盡可能保留車輛等環境資訊。 更具體地說,作者所提出的方法的結果完全保留了信号燈,闆上的字母和行人資訊。 相反,GTF的結果會丢失大部分可見的細節,如标記區域所示。 DLF,ADF和FPDE的結果分辨率低,CVT,DTCWT和ASR将僞邊緣引入融合圖像,并且由于GFCE過度增強,融合結果中出現了僞影和失真。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

  上圖中顯示的結果與上述兩組相似,并且在作者的結果中保留了突出特征,例如天空,雨傘,帳篷,尤其是行人特征。 總而言之,GTF的結果會平滑可見的細節和邊緣,GFCE會導緻圖像失真,CBF和RP引入噪聲,而基于DLF,ADF,CVT,DTCWT,ASR和FPDE的方法會導緻對比度和分辨率低。 相反,作者的方法産生最佳的視覺效果。 此外,在作者的方法中基于不同參數的結果非常相似,在視覺評估水準上的差異可以忽略不計。

  通常,由于單個度量無法客觀地測量融合品質,是以作者選擇這五個可靠的度量來評估不同的方法。 所提出的方法在 M I MI MI, Q A B / F Q^{AB / F} QAB/F, P C PC PC, Q N C I E Q^{NCIE} QNCIE和 U I Q I UIQI UIQI方面達到了最新的性能。 特别是, M I MI MI名額表明,VIF-Net在保留顯着特征和紋理細節方面沒有明顯的僞像和失真,具有很高的能力。

  其他資料上的結果如下圖所示:

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

  其他資料上的結果在定量上的對比如下圖所示, M I MI MI名額比其他比較方法的 M I MI MI名額高得多,而其餘的名額通常要好于其他比較方法:

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

[不同λ之間的對比實驗]

   首先作者選取 λ = 50 / 500 / 5000 \lambda =50/500/5000 λ=50/500/5000得到下圖結果:

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

   從實驗結果來看,當 λ = 500 λ= 500 λ=500和 λ = 5000 λ= 5000 λ=5000時,融合結果差異不大,但後者丢失了一些紋理細節。 直覺地,為了進一步突出紅外目标,作者假設最佳 λ λ λ将略大于500。為估計VIF-Net的性能,将 λ λ λ的平均得分參數 λ λ λ設定為100、300、500、800和1,000。 提議的方法列于下表。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

   通過進一步分析,使用"Kaptein"對典型圖像來證明VIF-Net的通用适應性,如下圖所示。以"Kaptein"圖中的結果為例,執行減法運算以友善觀察差異。如下圖所示,在視覺評估水準上的差異可以忽略不計。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

  作者認為可以在λ= 1000時獲得最佳融合結果,以下結果均是采用此參數。

[推理時間對比]

   其他方法(包括DLF,CBF,GTF,GFCE,CVT,DTCWT和FPDE)包含優化算法或複雜的比例轉換,并且需要大量疊代,是以平均運作時間較長。 相比之下,由于降維算法和結構簡單,ADF和RP的計算複雜度較低。 總體而言,由于VIF-Net具有簡單的網絡結構和較高的運作效率,是以在實時視訊融合中也很有效,下表展示運作一次所用的平均時間:

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

[擴充實驗-視訊融合]

   作者選取兩組視訊進行試驗,選擇計算複雜度較低的ADF和DTCWT和作者提出的方法:

   ① “ ParkingSnow”,共有2941幀,大小為448×324。

   第一行是ADF方法,第二行是DTCWT方法,第三行是VIF-Net,最後一行是标定的移動物體。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

   ②“ TreesAndRunner”,共有558幀,大小為328×254。

   第一行是ADF方法,第二行是DTCWT方法,第三行是VIF-Net,最後一行是标定的移動物體。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

   在綠色标記區域中,作者發現行人特征丢失,并且融合幀的對比度在ADF和DTCWT的結果中較弱。此外,DTCWT的結果導緻目标邊界周圍出現重影僞影。但是,VIF-Net克服了這些缺點。表VII中列出了視訊融合的平均客觀評價名額。 VIF-Net在視訊融合方面也表現出色。VIF-Net每幀的平均運作時間為0.22s和0.15s,基本可以滿足實時融合應用的要求。

   下面是融合後的名額對比,前三行是第一組視訊,後三行是第二組視訊。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

   作者認為視訊中移動的物體都是在紅外圖像比較明顯的物體。将融合後的圖像與紅外圖像中的移動物體摳出來,利用每一幀的Groundtruth,摳出來的圖像互相做差,取絕對值。內插補點越小說明融合圖融合紅外圖像效果更好。下圖展示了三種方法在第一組視訊(左)和第二組視訊(右)上的內插補點對比。

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

[實踐結果]

VIF-Net:RGB和紅外圖像融合的無監督架構📝論文下載下傳位址🔨代碼下載下傳位址👨‍🎓論文作者📦模型講解🚪傳送門

🚪傳送門

◉ 🎨RGB💥🔥紅外

📦資料集

[TNO-RGB紅外圖像]

[FLIR-RGB紅外圖像]

[Multispectral Image Recognition-RGB紅外目标檢測]

[Multispectral Image Recognition-RGB紅外語義分割]

[INO-RGB紅外視訊]

[SYSU-MM01行人重識别可見光紅外資料]

📚論文

[VIF-Net:RGB和紅外圖像融合的無監督架構]

[SiamFT:通過完全卷積孿生網絡進行的RGB紅外融合跟蹤方法]

[TU-Net/TDeepLab:基于RGB和紅外的地形分類]

[RTFNet:用于城市場景語義分割的RGB和紅外融合網絡]

[DenseFuse:紅外和可見圖像的融合方法]

[MAPAN:基于自适應行人對準的可見紅外跨模态行人重識别網絡]

◉ 🌆多光譜💥🌁高光譜

📦資料集

[高光譜圖像資料]

📚論文

[Deep Attention Network:基于深層注意力網絡的高光譜與多光譜圖像融合]

◉ 🎨RGB💥🥓SAR

📦資料集

[待更新]

📚論文

[待更新]

◉ 🎨RGB💥🔥紅外💥🥓SAR

📦資料集

[待更新]

📚論文

[待更新]

💕

大家有資料融合方向的優秀論文可以在評論分享一下,感謝。

🤘

繼續閱讀