two stage 、one stage 的目标检测算法( 四 )


ASTN 主要关注特征旋转,定位网络包含三层全连接层,前两层是预训练的 FC6 和 FC7,训练过程与 ASDN 类似,ASTN 对特征进行形变,将特征图划分为 4 个 block,每个 block 估计四个方向的旋转,增加了任务的复杂度 。两种对抗网络可以相结合,使得检测器更鲁棒,ROI 池化层提取的特征首先传入 ASDN 丢弃一些激活,之后使用 ASTN 对特征进行形变 。

two stage 、one stage 的目标检测算法

文章插图
图1.13 A-Fast-RCNN
1.14
针对 R-FCN 算法没有考虑到的全局信息和语义信息的问题,2017 年中科院自动化所提出算法,其在原来 R-FCN 的基础上引入了的全局和语义信息,通过结合局部、全局以及语义的信息,提高了检测的精度 。
two stage 、one stage 的目标检测算法

文章插图
图1.14
结构利用三支并行网络实现检测,上面的支路网络使用原本的 R-FCN 结构的位置敏感分布图提取目标的局部信息;中间的支路网络用于提取目标的全局信息,对于一个,依次通过 K×K 的 ROI,K×K 的 conv 以及 1×1 的 conv;下面的支路网络用于提取目标的语义信息,对于一个,首先选择以这个为中心,面积是原来 2 倍的,同样依次通过 K×K 的 ROI,K×K 的 conv 以及 1×1 的 conv 。最后先各自通过 1×1 的 conv 调整激活值的尺寸,然后把 Local FCN 和FCN 结果对应位置元素相加,再通过一个实现分类 。
1.15
基于 CNN 的物体检测研究一直在不断进步,从 R-CNN 到 Fast/ R-CNN,再 Mask R-CNN,主要的改进点都在于新的网络架构、新的范式、或者新的损失函数设计,然而 mini-batch 大小,这个训练中的关键因素并没有得到完善的研究 。由于输入图片尺寸的增长,图像检测所需显存量也会同比例增长,这也使得已有的深度学习框架无法训练大 mini-batch 的图像检测模型,而小 mini-batch 的物体检测算法又常常会引入不稳定的梯度、BN 层统计不准确、正负样本比例失调以及超长训练时间的问题 。因此,2017 年 12 月 Face++提出一种大 mini-batch 的目标检测算法。
two stage 、one stage 的目标检测算法

文章插图
图1.15 多 GPU 的 Batch
算法可以使用远大于以往的 mini-batch 大小训练网络(比如从 16 增大到 256),这样同时也可以高效地利用多块 GPU 联合训练(在论文的实验中最多使用了 128 块 GPU),大大缩短训练时间 。同时解决了 BN 统计不准确的问题,也提出了一种学习率选择策略以及跨 GPU 的 Batch方法,两者共同使用就得以大幅度减少大 mini-batch 物体检测器的训练时间(比如从 33 小时减少到仅仅 4 个小时),同时还可以达到更高的准确率 。
1.16 Light-Head R-CNN
2017 年 12 月 Face++提出了一种为了使 two stage 的检测算法 Light-Head R-CNN,主要探讨了 R-CNN 如何在物体检测中平衡精确度和速度 。Light-Head R-CNN 提出了一种更好的 two-stage设计结构,使用一个大内核可分卷积和少量通道生成稀疏的特征图 。该设计的计算量使随后的 ROI 子网络计算量大幅降低,检测系统所需内存减少 。将一个廉价的全连接层附加到池化层上,充分利用分类和回归的特征表示 。因其轻量级头部结构,该检测器能够实现速度和准确率之间的最优权衡,不管使用的是大主干网络还是小主干网络 。
基于网络达到了新的 state-of-the-art 的结果 40.6,超过了 Mask R-CNN 和。同时如果是用一个更小的网络,比如类似的小模型,达到了 100+FPS,30.7mmap,效率上超过了 SSD 和 YOLO 。
two stage 、one stage 的目标检测算法

文章插图
图1.16 Light-Head R-CNN