语义分割--Not All Pixels Are Equal：Difficulty-Aware Semantic Segmentation

Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade

CVPR2017

本文针对语义分割问题，引入Cascade思想，将图像像素根据分割难易度分为三个等级：Easy、Moderate、Hard ，分别用CNN网络的浅层、中层、高层完成分割。降低运算量同时提高分割精度

上图显示实际图像中的像素分割难易度是不一样的。Easy 和 Moderate 等级的占绝大多数，hard 占少数

本文的 contributions：

1）本文算法是第一个使用深度模型来区分对待分割像素难易度的算法，本文提出的 Deep Layer Cascade (LC) 降低运算量提高分割精度

2） LC 可以很容易嵌入到其他深度模型中，对 Inception-ResNet-v2 (IRNet) 应用 LC后，速度提高42.8% ，精度提高1.7%

3） LC 和其他一些网络结构的联系被明确指出。大量实验验证了LC的有效性

本文以 Inception-ResNet-v2 为例，将 LC 嵌入到此模型中。

上图（a）是 Inception-ResNet-v2 （ IRNet）网络模块示意图，（b）是 IRNet after LC，其中 L1 对应简单难度像素分割结果，L2对应中等难度像素分割结果，L3 对应高等难度像素分割结果

L2 只对 L1 不是很确定的像素进行分割， L3 只对 L2 不是很确定的像素进行分割。这样可以明显降低运算量。具体是通过Region Convolution 来实现的。

M can be implemented as a binary mask, where the pixels inside M equal one, otherwise zero

M 是一个二值掩模图像。

最终的分割结果是将 L1, L2，L3 的结果综合起来。

VOC12 test set 和 Cityscapes test set 结果对比