语义分割算法性能比较_语义分割江湖的那些事儿——从旷视说起( 二 )


随着网络深度的提升,理论上网络的感受野大多可以直接覆盖全图,但是实际有效感受野却远小于此 。笔者的理解是对同一个Map 进行卷积,边缘区域进行计算的次数会小于中心区域,所以随着 Conv 的不断堆叠,实际上会导致边缘感受野的衰减,即有效感受野会远小于理论感受野 。
最后文中给出了在VOC 2012 和上完整的,这在当时还是很良心的,之前的一些 Paper 对此都语焉不详 。具体详细的过程请参考原文 。

语义分割算法性能比较_语义分割江湖的那些事儿——从旷视说起

文章插图
最终 GCN 在VOC 2012 和上都取得了不错的结果 。
—— VOC 2012——
————
接下来出场的是算法(DFN) 。论文Arxiv链接请见: 。详细解读请见:CVPR 2018 | 旷视科技Face++提出用于语义分割的判别特征网络DFN 。
————
本文总结了现有语义分割方法仍然有待解决的两类 (如图 5 所示):
图5
所以,本文从宏观角度出发重新思考语义分割任务,提出应该将同一类的 Pixel考虑成一个整体,也就需要增强类内一致性,增大类间区分性 。总结而言,我们需要更具有判别力的特征 。
——网络结构——
本文提出的DFN主要包括两部分:和,如图6所示 。
图6
主要解决类内不一致性问题 。文中认为类内不一致性问题主要来自 的缺乏 。进而,我们需要引入 Multi-scale和;但是,不同 Stage 的特征虽然带来了 Multi-scale ,与此同时也带来了不同的判别能力;因此,我们需要对这些具有不同判别力的特征进行筛选,这就诞生了其中核心的设计——Block(CAB) 。
CAB 利用相邻 Stage 的特征计算然后对 Low-stage 的特征进行筛选,如图 7 所示 。因为文中认为,High-stage 的特征语义信息更强,更具有判别力 。
图7
此外,本文首次在 U-shape 结构中采用,这个设计非常有效 。首次在语义分割中使用提取,而之后的 , V3 将其在阵营发扬光大 。而本文将其应用 U-shape 的High-stage,并命名为“V-shape” 。我们尝试将其迁移到中的 FPN 结构,结果证明同样有效 。
主要解决类间低区分性的问题 。文中认为具有相似表观特征的不同区域很容易被网络混淆,尤其是相邻之时 。所以,需要增大特征之间的区分性 。为此文章显式地引入了来引导特征学习 。因为 Low-stage 主要关注一些细节边缘区域,而随着语义的增强,High-stage 的特征才是更多关注语义边界,所以采用了“反 U-shape”结构 。
——实验——
文中进行了丰富的消融实验和可视化分析 。
首先是对各部分的消融实验分析 。可以看到 非常有效,在 VOC 2012Set上可以达到Scale 79.54% mean IoU 。
而通过可视化输出,可以看到 确实可以将类内区域变得更加一致,如图8所示 。
图8
同时,文中还对和进行了消融实验分析 。
通过可视化 的输出,可以看到 确实可以很好地关注到 区域,如图9所示 。
图9
最终,DFN在 VOC 2012和 上性能都达到了当时的state-of-the-art 。
最后出场的主角是 ECCV 2018 算法() 。前面两个算法主要关注 ,探索 mean IoU 的极限;而关注于做出一个既快又好的实时语义分割算法 。最终该算法在上能取得 68.4% mean IoU 105 FPS ( Titan XP)的好成绩 。当然,我们希望这篇工作能抛砖引玉,尝试探讨到底什么架构才更适合任务,什么框架才能很好地同时获得充足的和丰富的空间信息?论文 Arxiv 链接请见: 。
详细解读请见:ECCV 2018 | 旷视科技提出双向网络:实现实时语义分割 。
————
本文对之前的实时性语义分割算法进行了总结,发现当前主要有三种加速方法:1) 通过 Crop 或者限制输入图片进而减少计算量;2) 减少网络通道数,尤其是 Early Stage;3) 还有像 ENet 类似的方法直接丢掉最后一个 Stage,如图10(a)所示 。