语义分割算法性能比较_语义分割江湖的那些事儿——从旷视说起( 二 ) _语义分析

随着网络深度的提升，理论上网络的感受野大多可以直接覆盖全图，但是实际有效感受野却远小于此。笔者的理解是对同一个Map 进行卷积，边缘区域进行计算的次数会小于中心区域，所以随着 Conv 的不断堆叠，实际上会导致边缘感受野的衰减，即有效感受野会远小于理论感受野。
最后文中给出了在VOC 2012 和上完整的，这在当时还是很良心的，之前的一些 Paper 对此都语焉不详。具体详细的过程请参考原文。

文章插图
最终 GCN 在VOC 2012 和上都取得了不错的结果。
—— VOC 2012——
————
接下来出场的是算法（DFN）。论文Arxiv链接请见：。详细解读请见：CVPR 2018 | 旷视科技Face++提出用于语义分割的判别特征网络DFN 。
————
本文总结了现有语义分割方法仍然有待解决的两类（如图 5 所示）：
图5
所以，本文从宏观角度出发重新思考语义分割任务，提出应该将同一类的 Pixel考虑成一个整体，也就需要增强类内一致性，增大类间区分性。总结而言，我们需要更具有判别力的特征。
——网络结构——
本文提出的DFN主要包括两部分：和，如图6所示。
图6
主要解决类内不一致性问题。文中认为类内不一致性问题主要来自的缺乏。进而，我们需要引入 Multi-scale和；但是，不同 Stage 的特征虽然带来了 Multi-scale ，与此同时也带来了不同的判别能力；因此，我们需要对这些具有不同判别力的特征进行筛选，这就诞生了其中核心的设计——Block（CAB）。
CAB 利用相邻 Stage 的特征计算然后对 Low-stage 的特征进行筛选，如图 7 所示。因为文中认为，High-stage 的特征语义信息更强，更具有判别力。
图7
此外，本文首次在 U-shape 结构中采用，这个设计非常有效。首次在语义分割中使用提取，而之后的， V3 将其在阵营发扬光大。而本文将其应用 U-shape 的High-stage，并命名为“V-shape” 。我们尝试将其迁移到中的 FPN 结构，结果证明同样有效。
主要解决类间低区分性的问题。文中认为具有相似表观特征的不同区域很容易被网络混淆，尤其是相邻之时。所以，需要增大特征之间的区分性。为此文章显式地引入了来引导特征学习。因为 Low-stage 主要关注一些细节边缘区域，而随着语义的增强，High-stage 的特征才是更多关注语义边界，所以采用了“反 U-shape”结构。
——实验——
文中进行了丰富的消融实验和可视化分析。
首先是对各部分的消融实验分析。可以看到非常有效，在 VOC 2012Set上可以达到Scale 79.54% mean IoU 。
而通过可视化输出，可以看到确实可以将类内区域变得更加一致，如图8所示。
图8
同时，文中还对和进行了消融实验分析。
通过可视化的输出，可以看到确实可以很好地关注到区域，如图9所示。
图9
最终，DFN在 VOC 2012和上性能都达到了当时的state-of-the-art 。
最后出场的主角是 ECCV 2018 算法（）。前面两个算法主要关注，探索 mean IoU 的极限；而关注于做出一个既快又好的实时语义分割算法。最终该算法在上能取得 68.4% mean IoU 105 FPS ( Titan XP)的好成绩。当然，我们希望这篇工作能抛砖引玉，尝试探讨到底什么架构才更适合任务，什么框架才能很好地同时获得充足的和丰富的空间信息？论文 Arxiv 链接请见：。
详细解读请见：ECCV 2018 | 旷视科技提出双向网络：实现实时语义分割。
————
本文对之前的实时性语义分割算法进行了总结，发现当前主要有三种加速方法：1) 通过 Crop 或者限制输入图片进而减少计算量；2) 减少网络通道数，尤其是 Early Stage；3) 还有像 ENet 类似的方法直接丢掉最后一个 Stage，如图10(a)所示。