【论文泛读】 Faster R-CNN:利用RPN实现实时目标检测 _检测

【论文泛读】R-CNN:利用RPN实现实时目标检测
文章目录总结
论文链接：R-CNN:Real-Timewith()
现在开始读目标检测的论文，我先总结了一下关于目标检测的相关论文和一些代码资源，都在我们的链接
红色的是目标检测必读的一些论文，今天我读的论文就是2015的何恺明大神的又一巨作 R-CNN
前言
R-CNN是目标检测领域中十分经典的方法，相比于传统的手工特征，R-CNN将卷积神经网络引入，用于提取深度特征，后接一个分类器判决搜索区域是否包含目标及其置信度，取得了较为准确的检测结果。Fast R-CNN和 R-CNN是R-CNN的升级版本，在准确率和实时性方面都得到了较大提升。
在Fast R-CNN中，首先需要使用的方法提取图像的候选目标区域() 。而新提出的 R-CNN模型则引入了RPN网络()，将的提取部分嵌入到内部网络，实现了卷积层特征共享，Fast R-CNN则基于RPN提取的做进一步的分类判决和回归预测，因此，整个网络模型可以完成端到端的检测任务，而不需要先执行特定的候选框搜索算法，显著提升了算法模型的实时性。
R-CNN是截止目前，RCNN系列算法的最杰出产物，two-stage中最为经典的物体检测算法。推理第一阶段先找出图片中待检测物体的矩形框（对背景、待检测物体进行二分类），第二阶段对框内待检测物体进行分类。
讲 R-CNN，就不得不讲讲R-CNN和Fast R-CNN的原理，这里只是粗略的讲一下，具体可以看论文
R-CNN( with CNN )可以分为4个步骤
( 方法，具体可以去看他的论文，主要讲的就是生成1K ~ 2 K个候选框，用颜色等特征进行融合) (Deep Net)：用卷积神经网络对每个提取特征（Alex-net），去掉了全连接层(SVM）：对提取到的特征进行分类，用的方法是SVM，每一类都有一个SVM分类器rect ()：使用回归器对进行修正。
同样的R-CNN有一些缺点
测试速度慢，每张图片需要 2 s训练速度慢，过程极其繁琐训练所需空间大，要数百GB的空间
Fast R-CNN用VGG-16作为，比R-CNN训练时间快9倍，测试推理快213倍。
大概也是分为4个步骤
(SS)：与R-CNN相同 (Deep net)：将图像输入网络得到相应的特征图，然后将SS算法生成的候选框投影到特征图上获得相应的特征矩阵。(Deep net)：将每个特征矩阵通过ROI 层缩放到7x7大小的特征图，接着将特征图展评通过一系列全连接层得到预测结果。(Deep net)
注意：R-CNN存在着重复计算的问题(的有几千个，多数都是互相重叠，重叠部分会多次重复提取特征，浪费时间)，作者借助SPP-net搞出了Fast-RCNN，跟R-CNN最大区别就是Fast-RCNN将的映射到CNN的最后一层 map,这样一张图片只需要提取一次特征。而且把分类也在卷积神经网络一起解决了
摘要
最新的检测网络都依赖区域推荐算法来推测物体位置。像[和Fast R-CNN已经大幅削减了检测网络的时间开销，但区域推荐的计算却变成了瓶颈。本论文将引入一个区域推荐网络（RPN）和检测网络共享全图像卷积特征，使得区域推荐的开销几近为0 。一个RPN是一个全卷积网络技能预测物体的边框，同时也能对该位置进行物体打分。RPN通过端到端的训练可以产生高质量的推荐区域，然后再用Fast R-CNN进行检测。通过共享卷积特征，我们进一步整合RPN和Fast R-CNN到一个网络，用近期流行的“术语”说，就是一种“注意力”机制。RPN组件会告诉整合网络去看哪个部分。对于非常深的VGG-16模型[3] 。我们的检测系统在GPU上达到了5fps的检测帧率（包括所有步骤），同时也在 ,2012和MS COCO数据集上达到了最好的物体检测精度，而对每张图片只推荐了300个区域。在和COCO 2015竞赛中，R-CNN和RPN是多个赛道都赢得冠军的基础。