【论文泛读】 Faster R-CNN:利用RPN实现实时目标检测

【论文泛读】R-CNN:利用RPN实现实时目标检测
文章目录总结
论文链接:R-CNN:Real-Timewith()
现在开始读目标检测的论文,我先总结了一下关于目标检测的相关论文和一些代码资源,都在我们的链接
红色的是目标检测必读的一些论文,今天我读的论文就是2015的何恺明大神的又一巨作 R-CNN
前言
R-CNN是目标检测领域中十分经典的方法,相比于传统的手工特征,R-CNN将卷积神经网络引入,用于提取深度特征,后接一个分类器判决搜索区域是否包含目标及其置信度,取得了较为准确的检测结果 。Fast R-CNN和 R-CNN是R-CNN的升级版本,在准确率和实时性方面都得到了较大提升 。
在Fast R-CNN中,首先需要使用 的方法提取图像的候选目标区域() 。而新提出的 R-CNN模型则引入了RPN网络(),将的提取部分嵌入到内部网络,实现了卷积层特征共享,Fast R-CNN则基于RPN提取的做进一步的分类判决和回归预测,因此,整个网络模型可以完成端到端的检测任务,而不需要先执行特定的候选框搜索算法,显著提升了算法模型的实时性 。
R-CNN是截止目前,RCNN系列算法的最杰出产物,two-stage中最为经典的物体检测算法 。推理第一阶段先找出图片中待检测物体的矩形框(对背景、待检测物体进行二分类),第二阶段对框内待检测物体进行分类 。
讲 R-CNN,就不得不讲讲R-CNN和Fast R-CNN的原理,这里只是粗略的讲一下,具体可以看论文
R-CNN( with CNN )可以分为4个步骤
( 方法,具体可以去看他的论文,主要讲的就是生成1K ~ 2 K个候选框,用颜色等特征进行融合) (Deep Net):用卷积神经网络对每个提取特征(Alex-net),去掉了全连接层(SVM):对提取到的特征进行分类,用的方法是SVM,每一类都有一个SVM分类器rect ():使用回归器对进行修正 。
同样的R-CNN有一些缺点
测试速度慢,每张图片需要 2 s训练速度慢,过程极其繁琐训练所需空间大,要数百GB的空间
Fast R-CNN用VGG-16作为,比R-CNN训练时间快9倍,测试推理快213倍 。
大概也是分为4个步骤
(SS):与R-CNN相同 (Deep net):将图像输入网络得到相应的特征图,然后将SS算法生成的候选框投影到特征图上获得相应的特征矩阵 。(Deep net):将每个特征矩阵通过ROI 层缩放到7x7大小的特征图,接着将特征图展评通过一系列全连接层得到预测结果 。(Deep net)
注意:R-CNN存在着重复计算的问题(的有几千个,多数都是互相重叠,重叠部分会多次重复提取特征,浪费时间),作者借助SPP-net搞出了Fast-RCNN,跟R-CNN最大区别就是Fast-RCNN将的映射到CNN的最后一层 map,这样一张图片只需要提取一次特征 。而且把分类也在卷积神经网络一起解决了
摘要
最新的检测网络都依赖区域推荐算法来推测物体位置 。像[和Fast R-CNN已经大幅削减了检测网络的时间开销,但区域推荐的计算却变成了瓶颈 。本论文将引入一个区域推荐网络(RPN)和检测网络共享全图像卷积特征,使得区域推荐的开销几近为0 。一个RPN是一个全卷积网络技能预测物体的边框,同时也能对该位置进行物体打分 。RPN通过端到端的训练可以产生高质量的推荐区域,然后再用Fast R-CNN进行检测 。通过共享卷积特征,我们进一步整合RPN和Fast R-CNN到一个网络,用近期流行的“术语”说,就是一种“注意力”机制 。RPN组件会告诉整合网络去看哪个部分 。对于非常深的VGG-16模型[3] 。我们的检测系统在GPU上达到了5fps的检测帧率(包括所有步骤),同时也在 ,2012和MS COCO数据集上达到了最好的物体检测精度,而对每张图片只推荐了300个区域 。在和COCO 2015竞赛中,R-CNN和RPN是多个赛道都赢得冠军的基础 。