论文:EGNet: Edge Guidance Network for Salient Object Detection
一. 主要内容概括
本文提出了一种名为EGNet的网络结构来解决静态目标检测问题,它由边缘特征提取部分、显著性目标特征提取部分以及一对一的导向模块三部分构成,利用边缘特征帮助显著性目标特征定位目标,使目标的边界更加准确。在6个不同的数据集中与15种目前最好的方法进行对比,实验结果表明EGNet性能最优。
二.Motivation
目前性能较好的解决目标静态检测问题的网络大多是以FCN(全卷积神经网络)为基础的,但是这些方法目前在显著性目标与其边缘的区分方面仍存在问题。例如有些方法忽略了边缘信息和显著性目标信息的相关性;还有一些方法使用超像素的预处理解决边缘信息问题但是推理速度很慢。
三. 主要贡献
- 提出了EGNet用来突出显著性目标的特征和边缘特征,能够更好地区分边界。
- 该模型通过让这两个互补的任务相互帮助,共同优化这两个任务,让预测结果更加好。
-
将提出的方法在6个不同的数据集上与15个目前最先进的方法作比较,效果最好。
四. 模型结构
模型的骨架是最左侧深蓝色的6个卷积层,整个网络共分为三部分: -
静态目标边缘特征提取模型:NLSEM
采用骨架中的Conv-2-2提取目标的边缘特征。不使用Conv1-2是因为其太接近输入层(噪声多)并且其感受野较小,不使用Conv3-3及更深的层提取边缘特征是因为他们所得到的feature map包含的边缘信息较少,他们更多包含的是语义信息。
-
静态显著性目标特征提取模型:PSFEM
从Conv3-3、Conv4-3、Conv5-3、Conv6-3四条路径分别提取目标不同层次的特征信息。其中从骨架最后一层的Conv6-3提取的特征卷积后与边缘信息结合用于O2OGM模块;Conv3-3、Conv4-3、Conv5-3、Conv6-3之间都一个从深层到上一浅层的连接(从Conv6-3开始,Conv3-3结束),用来丰富特征信息。
-
一对一的导向模块:O2OGM
将Conv6-3提取的显著性目标特征信息与Conv2-2提取的边缘特征结合后的特征分别与Conv3-3、Conv4-3、Conv5-3、Conv6-3每层提取的显著性目标特征进行融合,即图中FF模块的操作。
五. 消融实验
消融实验,其中B代表的是U-Net。使用MaxF、MAE、S-measure三个度量标准,通过箭头可以看出,MaxF和S-measure越大模型性能越好,MAE越小性能越好。使用的数据及分别是SOD和DUTS-TE。
前四行的模型仅有边缘特征提取和显著性目标特征提取两部分:B+edge_PROG代表将之前的模型图中的静态显著性目标特征提取模型中从Conv6-3到Conv2-2的线删掉,增加一根从Conv3-3到Conv2-2的连线;B+edge_TDLP是只包含之前模型图中的NLSEM和PSFEM模块,未加入后面的O2OGM模块;(NLDF:Nonlocal Deep Feature,是一种已有的方法,它在网络的末端加入了一个IOU loss来惩罚边缘误差)B+edge_NLDF是为B(U-Net)加上一个同样的IOU loss。
通过前四行的对比可以看出,在两个数据集下B+edge_TDLP的三个度量标准都是最好的,由此可以说明文中提出的EGNet中的边缘特征提取和显著性目标特征提取两部分都是有效的。
实验还对比了在B+edge_TDLP的基础上使用三种不同的特征融合方法,第一种是将Conv3-3和Conv2-2的融合结果直接当做最终的融合结果,所以这种方法的三个度量指标值就是表中的第3行;第二种方法是将Conv3-3、Conv4-3、Conv5-3、Conv6-3得到的特征与Conv2-2的边缘信息融合,是一种多分辨率的融合方法,称为B+edge_TDLP+MRF_PROG;第三种方法就是文中提出的一对一导向融合的方法,称为B+edge_TDLP+MRF_OTO。
通过3,5,6行的实验结果对比发现文中提出的B+edge_TDLP+MRF_OTO性能最好。
六. 对比实验
在ECSSD,PASCAL-S,DUT-OMRON,SOD,HKU- IS,DUTS六个数据集中对比了EGNet和目前15种方法的性能好坏,度量指标仍然是MaxF、MAE、S-measure。
其中红色代表最好的结果,蓝色次之,绿色第三。通过实验结果可以看出,在六个数据集中,本文提出的方法配合ResNet骨架效果都是最好的。