1 行为识别——论文整理

谨以此片博客开启我的行为识别之路——养成记录的好习惯
参考1: 以及无数博客大佬们 。
参考2:
文章目录2、研究进展2.2、深度学习 2.2.2、3D网络
1、任务
行为识别就是对时域预先分割好的序列判定其所属行为动作的类型,即“读懂行为” 。注意行为识别和行为检测的区别,在实现应用中更容易遇到的是序列尚未在时域分割,需要同时对行为动作进行时域定位(分割)和类型判断,这类任务一般称为行为检测 。
1.1、数据集介绍
快了…
2、研究进展 2.1、传统方法 2.1.1 密度轨迹by Dense (2011)with(2013)
iDT算法是行为识别领域中非常经典的一种算法,在深度学习应用于该领域前也是效果最好的算法 。由INRIA的IEAR实验室于2013年发表于ICCV 。?DT论文 ?iDT论文
内容:
DT算法利用光流场获取视频序列中的一些轨迹,沿着轨迹提取HOF、HOG、MBH和四种特征 。最后利用FV( )方法对特征进行编码,再基于编码结果训练SVM分类器 。而iDT改进的地方在于其利用前后帧视频间的光流和SURF关键点进行匹配,从而消除/减弱相机运动带来的影响 。
代码:
源码、第三方源码
模型:
说明:
A. 利用光流场来获得视频序列中的一些轨迹;
a. 通过网格划分的方式在图片的多个尺度上分别密集采样特征点,滤除一些变换少的点;
b. 计算特征点邻域内的光流中值来得到特征点的运动速度,进而跟踪关键点;
B. 沿轨迹提取HOF,HOG,MBH,,4种特征
其中HOG基于灰度图计算,另外几个均基于稠密光流场计算 。
a. HOG, 方向梯度直方图,分块后根据像素的梯度方向统计像素的梯度幅值 。
b. HOF, 光流直方图,光流通过当前帧梯度矩阵和相邻帧时间上的灰度变换矩阵计算得
到,之后再对光流方向进行加权统计 。
c. MBH,运动边界直方图,实质为光流梯度直方图 。即分别在图像的x和y方向光流图像上计算HOG特征 。
d. , 轨迹特征,特征点在各个帧上位置点的差值,构成轨迹变化特征 。
2.2、深度学习 2.2.1、Two-网络 Two-forin (2014)
提出Two-时空双流网络?论文
内容
首先计算连续两帧间的稠密光流,然后将携带了场景和目标信息的视频帧和携带相机和目标运动信息的光流分别训练CNN模型,两个网络分别对动作进行类别的判断,最后对两流的分数采用平均或者SVM来计算 。
代码
未公开
模型
实验
-88.0%,-59.4%
备注
时间流采用密集光流
Short : Deepfor Video (2015)
论文
内容
论文中讨论了两种方法:
1)提取每一帧的深度卷积特征,再使用不同的层结构(见备注)进行特征融合,得到最终输出 。
2)使用LSTM提取视频序列上的全局信息,再加层得到最终分类 。
代码
未公开
模型
实验
备注
1、对比了Conv 、Late 、Slow 、Local 、Time- 和 Conv 等融合方法 。实验表明,上述方法效果都较差,说明一个时间域的卷积层对于在高级特征上学习时间关系是无效的,进而使用LSTM从时间序列中学习 。
2、没有光流时,在UCF-101可以达到82.6%,加上光流后达到88.6% 。
Two-for Video(2016)
论文
内容
在原双流基础上做了改进,原双流网络时间和空间流在最后一步融合,结果取平均或SVM计算 。本文将双流网络都换成VGG-16网络,最后用一个卷积层融合双流网络 。
【1行为识别——论文整理】代码
源码(caffe)、第三方源码()
模型
实验
备注
1、时间融合后使用单个流在UCF-101上可以达到91.8%,保持两个流可以达到92.5% 。前者参数要少很多 。
2、将iDT方法的SVM评分与本文方法(之前)预测进行平均,在UCF-101上取得93.5%,在HMDB-51取得69.2% 。可以想象此方法的龟速 。
:Goodfor Deep(2016)
TSN网络提出,适用于长时间视频的行为判断 。?论文

1  行为识别——论文整理

文章插图
内容
视频的连续帧之间存在冗余,采用较为稀疏的抽帧方法去除冗余信息,同时减少计算量,具体做法:将视频分成K个,从每个中随机地选择一个short。将选择的通过BN- ( with Batch )构建的two-卷积神经网络得到不同的class ,最后将它们融合 。
通过常规的数据增加技术、;还有作者提到的cross- pre-,等方式来减少过拟合,来弥补数据量的问题 。还研究RGB 和flow对动作检测效果的影响 。
代码
源码(caffe)
模型
图中绿色条形图代表score在类别上的分布,G是聚合函数(本文采用均值函数,就是对所有的属于同一类别的得分做个均值),G函数输出的是 的输出结果 。最后,利用H函数(本文采用函数)计算得分概率,得分最高的类别就是该video所属类别 。
网络参数是共享的,即K个 的参数是共享的,K个 的参数也是共享的,实际用代码实现时只是不同的输入同一个网络 。
实验
使用TVL1光流算法提取正常光流场和扭曲光流场
备注
1、cross- pre-:通过线性变换将光流场离散到从0到255的区间,这使得光流场的范围和RGB图像相同 。然后,修改RGB模型第一个卷积层的权重来处理光流场的输入 。具体来说,就是对RGB通道上的权重进行平均,并根据时间网络输入的通道数量复制这个平均值 。这一策略对时间网络中降低过拟合非常有效 。
2、数据增强:传统的two-采用随记裁剪和水平翻转方式,本文提出两种新的方法,即角裁剪( )和尺度抖动(scale-) 。
Deep Local Videofor(2017)
论文
内容
不是所有视频帧都包含有用信息,本文首先采用TSN提取局部特征 。然后将局部特征聚合(本文采用最大池化方法)成全局特征,通过第二个分类阶段采用SVM分配视频级别的标签 。
代码
未公开
模型
实验
备注
1、聚合()方法:本文对比了Mean、Max、、BoW、VLAD和FV方法,实验表示最大池化Max效果最好 。
2、采样:对每个视频每个clips稀疏采样15帧就就足够了 。
in (2018)
论文
内容
本文提出一种时间关系网络,用来在多个时间尺度上学习,将不同时间尺度的关系特征融合到一起,即可得到多时间尺度的时间关系
时间关系:给定一段视频V,选取n个有序的视频帧序列 f 1 , f 2 , … , f n {f_1,f_2,…,f_n} f1?,f2?,…,fn?,则第 f i f_i fi?和 f j f_j fj?帧的关系定义如下:
T 2 ( V ) = h ? ( ∑ i < j g θ ( f i , f j ) ) T 3 ( V ) = h ? ′ ( ∑ i < j < k g θ ′ ( f i , f j , f k ) ) T_2(V)=h_\phi(\sum_{i<j} g_\theta(f_i,f_j)) \\ T_3(V)=h'_\phi(\sum_{i<j<k} g'_\theta(f_i,f_j,f_k)) T2?(V)=h??(i