2019 智见 AI workshop in Beijing

[持续更新]2019 智见 AIin张士峰:物体检测算法的对比探索和展望张祥雨:高效轻量级深度模型的研究和实践 黄高:面向快速推理的卷积神经网络设计 胡杰:视觉注意力机制在模式设计中的发展与应用俞刚:检测算法
前言
上周周末很幸运能参加旷视在北京的AI ,主题是物体识别和目标检测,跟我现在从事的方向十分贴合,大佬们的分享也让人收获不少 。有人可能会说,他们主要都是在介绍自己的工作,在打广告希望更多人用他们的算法,增加影响力 。我不否认,但是作为一个从业者这不就是我们的追求吗?而且,事实上很多内容是,就算你通读别人的代码和论文,都比不上听他亲口说他这个工作的来源、想法和创新点来得好 。假使你是基于了解大牛们的想法和框架为目的的话,这些交流肯定是一个很好的平台 。当然啦,有不少谈话可能以前在别的地方发表过了,但是我觉得还是认为它的价值是存在的,
书非借不能读panel部分和提问可以了解学界和业界发展的大致方向可以现场真人面对面提问啊好不好
废话不多说,先上当天日程:
简单介绍一下这8位,下面的记录方式会根据日程的顺序来进行,有些内容我不太了解或者当时刚好跳过了的见谅, 和 会从比较靠近他们的近期有影响力的工作出发:
代季峰:卷积神经网络中的几何形变建模
这个 talk 主要介绍的还是他在 -v1 和 v2 中的工作 。
Conv V1
工作的思路来源可以追溯到 SIFT 算子这类算法上,简单的介绍一下 SIFT,其实就是认为图片上的边缘和颜色信息可以通过一个二维向量记录下来,一个区域内二维向量的集合隐含的就是方向等特征 。基于这个传统思想衍生到深度学习的第一个工作就是 STN 。
STN:对传统卷积进行改进,加入一个新分支学习卷积核中每个像素(pixel)的偏移量() 。该分支的设计是,两个 conv 用作记录信息,后接一个σ \sigma σ 将特征映射成一串偏移量后该分支合并回原来的分支用作指导后续卷积行为
-V1 就是在这种背景上设计出来的,它的设计思想是:
,运行上效率要足够高,不能增加太多运算量no。不需要额外的数据指导训练。易部署且效果明显
就这三个维度的评判来看,显然 DCNv1 是能够达到这样的要求的 。在 D-RFCN-v1 的论文中,DCNv1 的提升超过两个点但是菜鸡的我表示,RFCN 的训练本身让 DCNv1 的威力看起来不明显,还有就是 DCN 这种结构它有自己专门针对的数据,规整形状数据也不能显示出它的威力,这个按下不表】 。DCNv1 的结构如下:
可以看到,DCNv1 的设计思路其实跟STN是一样的,都是新开一个分支做的计算,然后合并回去指导主支的卷积行为,不同的只是的设计 。分支中的三个部分,除了后面的回归层有不同的外,最大的不同我认为是中间的field layer 。这里其实是一个 2N 输出的设计,思路应该就是跟的亲和场设计(PartField)中关于二维向量的表述类似了,就是一个向量利用两层分别去表示 X 分量 和 Y 分量,至于思路来源我是不清楚的,各位知道的欢迎留言告知 。
Conv V2
然后是 -Conv-V2,作者介绍了他们对V1进行改进时使用的三个维度的工具:
-Based
其中前两个工具主要是对图片中不同区域和数值的 pixel 进行分析,看到底是哪些 pixel 引起了模型的注意和学习 。第三个工具则是分析模型在学习具体的物体位置和识别时哪些区域产生响应以及区域的形状如何,例子如下:
根据这些分析工具和方法,DCN-V2 相对 V1 提出了以下的改进,具体我还没看论文,只作大致复述,
更多的 layer 使用 DCN 结构 。在 V1 中作者只在第五层中加入了 DCN,并且没有对各层加 DCN 给出实验说明 。在 V2 中,作者补完了这些工作,并认为 DCN 应该加在尽可能多的中,除了底层外(因为底层信息提出的信息与物体形状无关,更加基本,加入 DCN 于理不合) 。实际上 V2 的设计就是将原本第五层加入 DCN 变成三至五层都加入了 。