📝论文下载地址
🔨代码下载地址
👨‍🎓论文作者
📦模型讲解
- [背景介绍]
- [论文解读]
- - - [VIF-Net网络结构]
    - [M-SSIM+TV损失]
    - - [SSIM]
        
        [TV]
    - [VIF-Net的训练]
- [结果分析]
- - - [评价指标]
    - - [ M I MI MI]
        
        [ Q A B / F Q^{AB/F} QAB/F]
        
        [ P C PC PC]
        
        [ Q N C I E Q^{NCIE} QNCIE]
        
        [ U I Q I UIQI UIQI]
    - [不同方法之间的对比实验]
    - [不同λ之间的对比实验]
    - [推理时间对比]
    - [扩展实验-视频融合]
- [实践结果]
🚪传送门

📝论文下载地址

[论文地址]

🔨代码下载地址

[代码地址-unofficial]

👨‍🎓论文作者

Ruichao Hou, Dongming Zhou, Rencan Nie, Dong Liu, Lei Xiong, Yanbu Guo, and Chuanbo Yu

📦模型讲解

[背景介绍]

图像融合时信息融合的一种，本质就是增强技术，运用多传感器获得的不同数据来提高网络性能。相对于单传感器的数据局限于一种数据的特性，多传感器能同时利用多中数据的特性，在视频监控、卫星成像、军事上都有很好的发展前景。对于本文来说，可见图像提供了丰富的纹理细节和环境信息，而红外图像则受益于夜间可见性和对高动态区域的抑制。如下图所示，左边时红外图像，右边是可见光图像。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

图像融合最关键的技术是怎么样能融合利用多种数据的优势。往往引入多种数据是双面性的，所以要抑制数据的不同带来的干扰。例如做变化检测的时候，往往因为成像不同而网络会错误地检测为变化。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

上图展示了图像融合的基本操作，将可见光和红外图像同时输入网络中，进行特征提取，之后进行特征融合，最后特征重建，生成融合图像。中间网络的部分也就是作者提出的VIF-Net。

[论文解读]

作者主要针对其他融合方法有计算成本的局限性，而且需要手动设计融合规则。由此，作者提出了自适应的端到端深度融合框架VIF-Net，旨在生成信息更丰富的图像，包含大量的热信息和纹理细节。

[VIF-Net网络结构]

VIF-Net的全称为Visible and Infrared image Fusion Network就是可见光和红外图像融合网络。VIF-Net体系结构如下图所示，它由三个主要组件组成：特征提取，融合和重建。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

可见图像和红外图像分别表示为 I A I_A IA和 I B I_B IB，它们输入到双通道中。通道 A A A由 C 11 C11 C11和包含 D 11 D11 D11、 D 21 D21 D21和 D 31 D31 D31的block组成。通道 B B B由 C 12 C12 C12和一个包含 D 12 D12 D12， D 22 D22 D22和 D 32 D32 D32的block组成。第一层( C 11 C11 C11和 C 12 C12 C12)包含3×3的卷积以提取底层特征，每个 D D D中的三个卷积层也都是3×3的卷积。由于这两个通道共享相同的权重以提取相同类型的深度特征，因此此结构在降低计算复杂度方面也具有优势。在特征融合部分，作者尝试直接连接深层特征，也就是通道进行叠加。最后，特征融合层的结果通过另外五个卷积层( C 2 C2 C2， C 3 C3 C3， C 4 C4 C4， C 5 C5 C5和 C 6 C6 C6）来从融合特征中重建融合结果。下表概述了网络的更详细的体系结构：

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

从表格的结构可以看出，假设输出都是单通道的图像，经过前面的特征提取层，每一层的输出都会与后面所有层的输出直接相连，这里是通道叠加。这样，可见光通道会输出 16 + 16 + 16 + 16 = 64 16+16+16+16=64 16+16+16+16=64通道的特征图，两个网络通道会生成 128 128 128通道，在特征融合层进行通道叠加，输入特征重建的就是 128 128 128通道的特征图。

[M-SSIM+TV损失]

从上面的结构图可以看到，损失函数主要分为两部分 L S S I M L_{SSIM} LSSIM和 L T V L_{TV} LTV，作者设计的损失函数为：

L o s s = λ L S S I M + L T V Loss=λL_{SSIM}+L_{TV} Loss=λLSSIM+LTV

[SSIM]

SSIM是一种衡量图像结构相似性的算法，结合了图像的亮度，对比度和结构三方面对图像质量进行测量。原本的SSIM公式为：

S S I M ( x , y ) = [ l ( x , y ) ] α × [ c ( x , y ) ] β × [ s ( x , y ) ] γ SSIM(x,y)=[l(x,y)]^α×[c(x,y)]^β×[s(x,y)]^γ SSIM(x,y)=[l(x,y)]α×[c(x,y)]β×[s(x,y)]γ

其中 l ( x , y ) l(x,y) l(x,y)为亮度部分：

l ( x , y ) = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 l(x,y)=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1} l(x,y)=μx2+μy2+C12μxμy+C1

其中 c ( x , y ) c(x,y) c(x,y)为对比度部分：

c ( x , y ) = 2 σ x σ y + C 2 σ x 2 + σ y 2 + C 2 c(x,y)=\frac{2σ_xσ_y+C_2}{σ_x^2+σ_y^2+C_2} c(x,y)=σx2+σy2+C22σxσy+C2

其中 s ( x , y ) s(x,y) s(x,y)为结构部分：

s ( x , y ) = σ x y + C 3 σ x σ y + C 3 s(x,y)=\frac{σ_{xy}+C_3}{σ_xσ_y+C_3} s(x,y)=σxσy+C3σxy+C3

其中 μ x μ_x μx与 μ y μ_y μy是图像的像素平均值， σ x σ_x σx和 σ y σ_y σy为像素的标准差， σ x y σ_{xy} σxy为 x y xy xy的协方差， C 1 C_1 C1、 C 2 C_2 C2和 C 3 C_3 C3是常数，防止分母为0。一般情况下， α = β = γ = 1 、 C 2 = 2 × C 3 α=β=γ=1、C_2=2×C_3 α=β=γ=1、C2=2×C3则：

S S I M ( x , y ) = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 × 2 σ x σ y + 2 C 3 σ x 2 + σ y 2 + 2 C 3 × σ x y + C 3 σ x σ y + C 3 = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 × 2 σ x y + 2 C 3 σ x 2 + σ y 2 + 2 C 3 = 2 μ x μ y + C 1 μ x 2 + μ y 2 + C 1 × 2 σ x y + C 2 σ x 2 + σ y 2 + C 2 SSIM(x,y)=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_xσ_y+2C_3}{σ_x^2+σ_y^2+2C_3}×\frac{σ_{xy}+C_3}{σ_xσ_y+C_3} \\=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_{xy}+2C_3}{σ_x^2+σ_y^2+2C_3}\\=\frac{2μ_xμ_y+C_1}{μ_x^2+μ_y^2+C_1}×\frac{2σ_{xy}+C_2}{σ_x^2+σ_y^2+C_2} SSIM(x,y)=μx2+μy2+C12μxμy+C1×σx2+σy2+2C32σxσy+2C3×σxσy+C3σxy+C3=μx2+μy2+C12μxμy+C1×σx2+σy2+2C32σxy+2C3=μx2+μy2+C12μxμy+C1×σx2+σy2+C22σxy+C2

作者认为图像分辨率很低亮度就不是很重要，所以去除了亮度，重写公式：

S S I M M ( x , y ∣ W ) = 2 σ x y + C σ x 2 + σ y 2 + C SSIM_M(x,y|W)=\frac{2σ_{xy}+C}{σ_x^2+σ_y^2+C} SSIMM(x,y∣W)=σx2+σy2+C2σxy+C

根据以上公式可以计算 S S I M M ( I A , I F ∣ W ) SSIM_M(I_A,I_F|W) SSIMM(IA,IF∣W)和 S S I M M ( I B , I F ∣ W ) SSIM_M(I_B,I_F|W) SSIMM(IB,IF∣W)，其中 W W W代表一个滑动窗口，大小为 m × n m×n m×n，作者设置窗口为 11 × 11 11×11 11×11、 C = 9 × 1 0 − 4 C=9×10^{-4} C=9×10−4，利用这个公式来衡量 I F I_F IF与 I A I_A IA或者 I B I_B IB哪个更相似。例如 S S I M M ( I B , I F ∣ W ) > S S I M M ( I A , I F ∣ W ) SSIM_M(I_B,I_F|W)>SSIM_M(I_A,I_F|W) SSIMM(IB,IF∣W)>SSIMM(IA,IF∣W)则 I F I_F IF与 I B I_B IB在窗口 W W W中更相似， I F I_F IF在窗口 W W W保留更多红外的信息。这样就能按以下公式自适应学习深度特征：

E ( I ∣ W ) = 1 m × n ∑ i = 1 m × n P i E(I | W)=\frac{1}{m \times n} \sum_{i=1}^{m \times n} P_{i} E(I∣W)=m×n1i=1∑m×nPi

Score ( I A , I B , I F ∣ W ) = { SSIM ⁡ M ( I A , I F ∣ W ) if E ( I A ∣ W ) > E ( I B ∣ W ) SSIM ⁡ M ( I B , I F ∣ W ) if E ( I A ∣ W ) ≤ E ( I B ∣ W ) \text { Score }\left(I_{A}, I_{B}, I_{F} | W\right)=\left\{\begin{array}{l} \operatorname{SSIM}_{M}\left(I_{A}, I_{F} | W\right) \text { if } E\left(I_{A} | W\right)>E\left(I_{B} | W\right) \\ \operatorname{SSIM}_{M}\left(I_{B}, I_{F} | W\right) \text { if } E\left(I_{A} | W\right) \leq E\left(I_{B} | W\right) \end{array}\right. Score (IA,IB,IF∣W)={SSIMM(IA,IF∣W) if E(IA∣W)>E(IB∣W)SSIMM(IB,IF∣W) if E(IA∣W)≤E(IB∣W)

L S S I M = 1 − 1 N ∑ W = 1 N Score ⁡ ( I A , I B , I F ∣ W ) L_{S S IM}=1-\frac{1}{N} \sum_{W=1}^{N} \operatorname{Score}\left(I_{A}, I_{B}, I_{F} | W\right) LSSIM=1−N1W=1∑NScore(IA,IB,IF∣W)

上面第一个公式是计算窗口内的平均值，之后计算SSIM如果包含更多 A A A的信息，那么将 S S I M M ( I A , I F ∣ W ) SSIM_M(I_A,I_F|W) SSIMM(IA,IF∣W)作为得分；如果包含更多 B B B的信息，那么将 S S I M M ( I B , I F ∣ W ) SSIM_M(I_B,I_F|W) SSIMM(IB,IF∣W)作为得分。第三个公式给出了 L S S I M L_{SSIM} LSSIM的计算方法， N N N为滑窗的总个数，将其取平均值后与1相减作为损失函数。

[TV]

TV全称是Total Variation译为总体变化，是一种衡量图片噪声的指标，传统的TV计算的公式为：

R V β ( x ) = ∑ i , j ( ( x i , j + 1 − x i j ) 2 + ( x i + 1 , j − x i j ) 2 ) β 2 \mathcal{R}_{V^{\beta}}(\mathbf{x})=\sum_{i, j}\left(\left(x_{i, j+1}-x_{i j}\right)^{2}+\left(x_{i+1, j}-x_{i j}\right)^{2}\right)^\frac{β}{2} RVβ(x)=i,j∑((xi,j+1−xij)2+(xi+1,j−xij)2)2β

其中， x i x_i xi代表一个像素，将其与水平方向+1的像素做差的平方，和垂直方向+1的像素做差的平方，两者之和开 β 2 \frac{β}{2} 2β次方，对每个像素求和(除最后一行和列像素)，这样就计算出TV。所以如果他有噪声的话，TV会明显变大，因为像素之间的变化会很大。然而，TV很小的话，图像会很模糊，因为相近的像素相等TV最小。作者运用以下公式求取 L T V L_{TV} LTV。

R ( i , j ) = I A ( i , j ) − I F ( i , j ) L T V = ∑ i , j ( ∥ R ( i , j + 1 ) − R ( i , j ) ∥ 2 + ∥ R ( i + 1 , j ) − R ( i , j ) ∥ 2 ) \begin{array}{c} R(i, j)=I_{A}(i, j)-I_{F}(i, j) \\ L_{T V}=\sum_{i, j}\left(\|R(i, j+1)-R(i, j)\|_{2}+\|R(i+1, j)-R(i, j)\|_{2}\right) \end{array} R(i,j)=IA(i,j)−IF(i,j)LTV=∑i,j(∥R(i,j+1)−R(i,j)∥2+∥R(i+1,j)−R(i,j)∥2)

首先对 I A I_A IA和 I F I_F IF对应像素相减，得到 R ( i , j ) R(i,j) R(i,j)，对 R ( i , j ) R(i,j) R(i,j)求TV，作者取 β = 2 β=2 β=2。接下来作者提到， L S S I M L_{SSIM} LSSIM和 L T V L_{TV} LTV不在统一数量级， L S S I M L_{SSIM} LSSIM会比 L T V L_{TV} LTV低 1 0 2 − 1 0 3 10^2-10^3 102−103。所以，这会导致网络更偏重于TV，使得图像分辨率，对比度较低，这也符合TV过低的情况。作者于是引入平衡参数 λ λ λ使两种损失函数在同一水平上。

L o s s = λ L S S I M + L T V Loss=λL_{SSIM}+L_{TV} Loss=λLSSIM+LTV

[VIF-Net的训练]

作者从公开可用的TNO图像数据集和INO视频数据集中收集了25对覆盖不同场景的可见和红外图像。由于此数据集太小而无法满足训练要求，因此裁剪了约25000个尺寸为64×64的补丁，以扩展训练数据集而没有任何人工标签；数据集的样本如下图所示。此外，作者将网络训练了50个epoch，使用Adam优化器以 1 0 − 4 10^{-4} 10−4的学习率将损失。作者的网络是在TensorFlow上实现的，并在配备Intel E5 2670 2.6 GHz CPU，16 GB RAM和NVIDIA GTX1080Ti GPU的PC上进行了训练。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

[结果分析]

[评价指标]

为了防止主观视觉的人为因素，作者使用物种可靠的量化指标：互信息/mutual information/ M I MI MI、边缘保持/edge retentiveness/ Q A B / F Q^{AB/F} QAB/F、相位一致性/phase congruency/ P C PC PC、非线性相关信息熵/nonlinear correlation information entropy/ Q N C I E Q^{NCIE} QNCIE、通用图像质量指数/universal image quality index/ U I Q I UIQI UIQI。

[ M I MI MI]

M I MI MI分数越高，表示从源图像获得的信息越丰富。公式如下： M I = ∑ i A ∈ I A F ∑ i ∈ I F p ( i A , i F ) log ⁡ 2 p ( i A , i F ) p ( i A ) p ( i F ) + ∑ i B ∈ I B ∑ i F ∈ I F p ( i B , i F ) log ⁡ 2 p ( i B , i F ) p ( i B ) p ( i F ) M I=\sum_{i_{A} \in I_{A_{F}}} \sum_{i \in I_{F}} p\left(i_{A}, i_{F}\right) \log _{2} \frac{p\left(i_{A}, i_{F}\right)}{p\left(i_{A}\right) p\left(i_{F}\right)}+\sum_{i_{B} \in I_{B}} \sum_{i_{F} \in I_{F}} p\left(i_{B}, i_{F}\right) \log _{2} \frac{p\left(i_{B}, i_{F}\right)}{p\left(i_{B}\right) p\left(i_{F}\right)} MI=iA∈IAF∑i∈IF∑p(iA,iF)log2p(iA)p(iF)p(iA,iF)+iB∈IB∑iF∈IF∑p(iB,iF)log2p(iB)p(iF)p(iB,iF)

其中 p ( i A , i F ) p(i_A,i_F) p(iA,iF)为 i A i_A iA与 i F i_F iF的联合概率分布， p ( i A ) p(i_A) p(iA)为 i A i_A iA的边缘概率分布。

[ Q A B / F Q^{AB/F} QAB/F]

Q A B / F Q^{AB/F} QAB/F测量了从原图像到融合图像转移的图像边缘数量。公式如下：

Q A B / F = ∑ i = 1 N ∑ j = 1 M ( Q A F ( i , j ) w A ( i , j ) + Q B F ( i , j ) w B ( i , j ) ) ∑ i N ∑ j M ( w A ( i , j ) + w B ( i , j ) ) Q^{AB/F}=\frac{\sum_{i=1}^{N} \sum_{j=1}^{M}\left(Q^{A F}(i, j) w^{A}(i, j)+Q^{B F}(i, j) w^{B}(i, j)\right)}{\sum_{i}^{N} \sum_{j}^{M}\left(w^{A}(i, j)+w^{B}(i, j)\right)} QAB/F=∑iN∑jM(wA(i,j)+wB(i,j))∑i=1N∑j=1M(QAF(i,j)wA(i,j)+QBF(i,j)wB(i,j))

这里比较难理解计算，简单来说，会通过边缘检测算法（Sobel边缘检测算法）计算出输入图像和融合图像的边缘信息，在通过上式得出指标，指标越高越好。具体的过程可以访问[多聚焦图像像素级融合方法研究-总第27页-论文页码第14页-⑥]

[ P C PC PC]

PC表示融合图像的结构，定义如下:

P C = ( P p ) α ( P M ) β ( P m ) γ PC=(P_p)^α(P_M)^β(P_m)^γ PC=(Pp)α(PM)β(Pm)γ

其中 p p p， M M M和 m m m分别是相位，最大力矩和最小力矩，且 α = β = γ = 1 α=β=γ=1 α=β=γ=1。

[ Q N C I E Q^{NCIE} QNCIE]

Q N C I E Q^{NCIE} QNCIE度量源图像和融合图像之间的非线性相关熵，定义如下：

Q N C I E = 1 + ∑ i = 1 3 λ i 3 log ⁡ 256 ( λ i 3 ) Q^{N C I E}=1+\sum_{i=1}^{3} \frac{\lambda_{i}}{3} \log _{256}\left(\frac{\lambda_{i}}{3}\right) QNCIE=1+i=1∑33λilog256(3λi)

其中 λ i \lambda_{i} λi是非线性相关矩阵的特征值。

[ U I Q I UIQI UIQI]

另外， U I Q I UIQI UIQI是一种从相关损失，亮度和对比度三个方面来测量图像质量的评估指标。定义如下：

U I Q I = [ 4 σ I , I F μ I μ I F ( σ I A 2 + σ I F 2 ) ( μ I A 2 + μ I F 2 ) + 4 σ I B I F μ I B μ I F ( σ I B 2 + σ I F 2 ) ( μ I B 2 + μ I F 2 ) ] 2 U I Q I=\frac{\left[\frac{4 \sigma_{I, I_{F}} \mu_{I} \mu_{I_{F}}}{\left(\sigma_{I_{A}}^{2}+\sigma_{I_{F}}^{2}\right)\left(\mu_{I_{A}}^{2}+\mu_{I_{F}}^{2}\right)}+\frac{4 \sigma_{I_{B} I_{F}} \mu_{I_{B}} \mu_{I_{F}}}{\left(\sigma_{I_{B}}^{2}+\sigma_{I_{F}}^{2}\right)\left(\mu_{I_{B}}^{2}+\mu_{I_{F}}^{2}\right)}\right]}{2} UIQI=2[(σIA2+σIF2)(μIA2+μIF2)4σI,IFμIμIF+(σIB2+σIF2)(μIB2+μIF2)4σIBIFμIBμIF]

其中 μ μ μ和 σ σ σ分别表示平均值和标准偏差， σ I A I F σ_{I_AI_F} σIAIF是 I A I_A IA和 I F I_F IF之间的互相关。

[不同方法之间的对比实验]

下面三个表格展示了三种图像（“Human”、“Street”、“Kaptein”）的测试结果。可以看出VIF-Net取得不错的性能。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

其中作者对损失函数的超参数的取值进行对比，Proposed-500/800/1000分别对应 λ = 500 / 800 / 1000 \lambda =500/800/1000 λ=500/800/1000也就是下式：

L o s s = λ L S S I M + L T V Loss=λL_{SSIM}+L_{TV} Loss=λLSSIM+LTV

下图是三种图像的展示（自上向下是“Human”、“Street”、“Kaptein”），红色框是一些关键特征，可以看出效果很好：

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

从上图中可以看到，由于大量的人工噪声，RP和CBF的结果具有较差的视觉效果。此外，DLF，ADF，CVT，DTCWT，ASR，FPDE的结果看起来非常相似，并且会产生伪像，目标尚不清楚。此外，GFCE和GTF包含明亮而显眼的目标，但是基于GFCE的融合图像的背景由于细节和亮度的增强而失真。由于GTF可以平滑纹理，因此可见的细节和边缘会在一定程度上丢失。作者的方法会突出显示红外目标并保留纹理细节，从而在这些方法中提供最佳的融合性能。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

上图示出了“Street”的融合结果。主要目标是将行人和路灯之类的信息融合到单个图像中，并尽可能保留车辆等环境信息。更具体地说，作者所提出的方法的结果完全保留了信号灯，板上的字母和行人信息。相反，GTF的结果会丢失大部分可见的细节，如标记区域所示。 DLF，ADF和FPDE的结果分辨率低，CVT，DTCWT和ASR将伪边缘引入融合图像，并且由于GFCE过度增强，融合结果中出现了伪影和失真。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

上图中显示的结果与上述两组相似，并且在作者的结果中保留了突出特征，例如天空，雨伞，帐篷，尤其是行人特征。总而言之，GTF的结果会平滑可见的细节和边缘，GFCE会导致图像失真，CBF和RP引入噪声，而基于DLF，ADF，CVT，DTCWT，ASR和FPDE的方法会导致对比度和分辨率低。相反，作者的方法产生最佳的视觉效果。此外，在作者的方法中基于不同参数的结果非常相似，在视觉评估水平上的差异可以忽略不计。

通常，由于单个度量无法客观地测量融合质量，因此作者选择这五个可靠的度量来评估不同的方法。所提出的方法在 M I MI MI， Q A B / F Q^{AB / F} QAB/F， P C PC PC， Q N C I E Q^{NCIE} QNCIE和 U I Q I UIQI UIQI方面达到了最新的性能。特别是， M I MI MI指标表明，VIF-Net在保留显着特征和纹理细节方面没有明显的伪像和失真，具有很高的能力。

其他数据上的结果如下图所示：

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

其他数据上的结果在定量上的对比如下图所示， M I MI MI指标比其他比较方法的 M I MI MI指标高得多，而其余的指标通常要好于其他比较方法：

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

[不同λ之间的对比实验]

首先作者选取 λ = 50 / 500 / 5000 \lambda =50/500/5000 λ=50/500/5000得到下图结果：

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

从实验结果来看，当 λ = 500 λ= 500 λ=500和 λ = 5000 λ= 5000 λ=5000时，融合结果差异不大，但后者丢失了一些纹理细节。直观地，为了进一步突出红外目标，作者假设最佳 λ λ λ将略大于500。为估计VIF-Net的性能，将 λ λ λ的平均得分参数 λ λ λ设置为100、300、500、800和1,000。提议的方法列于下表。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

通过进一步分析，使用"Kaptein"对典型图像来证明VIF-Net的通用适应性，如下图所示。以"Kaptein"图中的结果为例，执行减法运算以方便观察差异。如下图所示，在视觉评估水平上的差异可以忽略不计。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

作者认为可以在λ= 1000时获得最佳融合结果，以下结果均是采用此参数。

[推理时间对比]

其他方法（包括DLF，CBF，GTF，GFCE，CVT，DTCWT和FPDE）包含优化算法或复杂的比例转换，并且需要大量迭代，因此平均运行时间较长。相比之下，由于降维算法和结构简单，ADF和RP的计算复杂度较低。总体而言，由于VIF-Net具有简单的网络结构和较高的运行效率，因此在实时视频融合中也很有效，下表展示运行一次所用的平均时间：

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

[扩展实验-视频融合]

作者选取两组视频进行试验，选择计算复杂度较低的ADF和DTCWT和作者提出的方法：

① “ ParkingSnow”，共有2941帧，大小为448×324。

第一行是ADF方法，第二行是DTCWT方法，第三行是VIF-Net，最后一行是标定的移动物体。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

②“ TreesAndRunner”，共有558帧，大小为328×254。

第一行是ADF方法，第二行是DTCWT方法，第三行是VIF-Net，最后一行是标定的移动物体。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

在绿色标记区域中，作者发现行人特征丢失，并且融合帧的对比度在ADF和DTCWT的结果中较弱。此外，DTCWT的结果导致目标边界周围出现重影伪影。但是，VIF-Net克服了这些缺点。表VII中列出了视频融合的平均客观评价指标。 VIF-Net在视频融合方面也表现出色。VIF-Net每帧的平均运行时间为0.22s和0.15s，基本可以满足实时融合应用的要求。

下面是融合后的指标对比，前三行是第一组视频，后三行是第二组视频。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

作者认为视频中移动的物体都是在红外图像比较明显的物体。将融合后的图像与红外图像中的移动物体抠出来，利用每一帧的Groundtruth，抠出来的图像相互做差，取绝对值。差值越小说明融合图融合红外图像效果更好。下图展示了三种方法在第一组视频（左）和第二组视频（右）上的差值对比。

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

[实践结果]

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

🚪传送门

◉ 🎨RGB💥🔥红外

📦数据集

[TNO-RGB红外图像]

[FLIR-RGB红外图像]

[Multispectral Image Recognition-RGB红外目标检测]

[Multispectral Image Recognition-RGB红外语义分割]

[INO-RGB红外视频]

[SYSU-MM01行人重识别可见光红外数据]

📚论文

[VIF-Net：RGB和红外图像融合的无监督框架]

[SiamFT：通过完全卷积孪生网络进行的RGB红外融合跟踪方法]

[TU-Net/TDeepLab：基于RGB和红外的地形分类]

[RTFNet：用于城市场景语义分割的RGB和红外融合网络]

[DenseFuse：红外和可见图像的融合方法]

[MAPAN：基于自适应行人对准的可见红外跨模态行人重识别网络]

◉ 🌆多光谱💥🌁高光谱

📦数据集

[高光谱图像数据]

📚论文

[Deep Attention Network：基于深层注意力网络的高光谱与多光谱图像融合]

◉ 🎨RGB💥🥓SAR

📦数据集

[待更新]

📚论文

[待更新]

◉ 🎨RGB💥🔥红外💥🥓SAR

📦数据集

[待更新]

📚论文

[待更新]

💕

大家有数据融合方向的优秀论文可以在评论分享一下，感谢。

🤘

VIF-Net：RGB和红外图像融合的无监督框架📝论文下载地址🔨代码下载地址👨‍🎓论文作者📦模型讲解🚪传送门

目录

📝论文下载地址

🔨代码下载地址

👨‍🎓论文作者

📦模型讲解

[背景介绍]

[论文解读]

[VIF-Net网络结构]

[M-SSIM+TV损失]

[VIF-Net的训练]

[结果分析]

[评价指标]

[不同方法之间的对比实验]

[不同λ之间的对比实验]

[推理时间对比]

[扩展实验-视频融合]

[实践结果]

🚪传送门

继续阅读

TestLink导出用例转换工具(XML2Excel)

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入