two stage 、one stage 的目标检测算法( 四 ) _算法

ASTN 主要关注特征旋转，定位网络包含三层全连接层，前两层是预训练的 FC6 和 FC7，训练过程与 ASDN 类似，ASTN 对特征进行形变，将特征图划分为 4 个 block，每个 block 估计四个方向的旋转，增加了任务的复杂度。两种对抗网络可以相结合，使得检测器更鲁棒，ROI 池化层提取的特征首先传入 ASDN 丢弃一些激活，之后使用 ASTN 对特征进行形变。

文章插图
图1.13 A-Fast-RCNN
1.14
针对 R-FCN 算法没有考虑到的全局信息和语义信息的问题，2017 年中科院自动化所提出算法，其在原来 R-FCN 的基础上引入了的全局和语义信息，通过结合局部、全局以及语义的信息，提高了检测的精度。

文章插图
图1.14
结构利用三支并行网络实现检测，上面的支路网络使用原本的 R-FCN 结构的位置敏感分布图提取目标的局部信息；中间的支路网络用于提取目标的全局信息，对于一个，依次通过 K×K 的 ROI，K×K 的 conv 以及 1×1 的 conv；下面的支路网络用于提取目标的语义信息，对于一个，首先选择以这个为中心，面积是原来 2 倍的，同样依次通过 K×K 的 ROI，K×K 的 conv 以及 1×1 的 conv 。最后先各自通过 1×1 的 conv 调整激活值的尺寸，然后把 Local FCN 和FCN 结果对应位置元素相加，再通过一个实现分类。
1.15
基于 CNN 的物体检测研究一直在不断进步，从 R-CNN 到 Fast/ R-CNN，再 Mask R-CNN，主要的改进点都在于新的网络架构、新的范式、或者新的损失函数设计，然而 mini-batch 大小，这个训练中的关键因素并没有得到完善的研究。由于输入图片尺寸的增长，图像检测所需显存量也会同比例增长，这也使得已有的深度学习框架无法训练大 mini-batch 的图像检测模型，而小 mini-batch 的物体检测算法又常常会引入不稳定的梯度、BN 层统计不准确、正负样本比例失调以及超长训练时间的问题。因此，2017 年 12 月 Face++提出一种大 mini-batch 的目标检测算法。

文章插图
图1.15 多 GPU 的 Batch
算法可以使用远大于以往的 mini-batch 大小训练网络（比如从 16 增大到 256），这样同时也可以高效地利用多块 GPU 联合训练（在论文的实验中最多使用了 128 块 GPU），大大缩短训练时间。同时解决了 BN 统计不准确的问题，也提出了一种学习率选择策略以及跨 GPU 的 Batch方法，两者共同使用就得以大幅度减少大 mini-batch 物体检测器的训练时间（比如从 33 小时减少到仅仅 4 个小时），同时还可以达到更高的准确率。
1.16 Light-Head R-CNN
2017 年 12 月 Face++提出了一种为了使 two stage 的检测算法 Light-Head R-CNN，主要探讨了 R-CNN 如何在物体检测中平衡精确度和速度。Light-Head R-CNN 提出了一种更好的 two-stage设计结构，使用一个大内核可分卷积和少量通道生成稀疏的特征图。该设计的计算量使随后的 ROI 子网络计算量大幅降低，检测系统所需内存减少。将一个廉价的全连接层附加到池化层上，充分利用分类和回归的特征表示。因其轻量级头部结构，该检测器能够实现速度和准确率之间的最优权衡，不管使用的是大主干网络还是小主干网络。
基于网络达到了新的 state-of-the-art 的结果 40.6，超过了 Mask R-CNN 和。同时如果是用一个更小的网络，比如类似的小模型，达到了 100+FPS，30.7mmap，效率上超过了 SSD 和 YOLO 。

文章插图
图1.16 Light-Head R-CNN