YouTube-8M: A Large _视频

-8M: A Large-Scale Video ?
作者以1帧每秒的速度解码视频，同时利用预训练在上的Deep CNN来抽取隐藏的表征。
作者首先利用视频标注系统对-8m进行标注，同时利用包括人力手动过滤的过滤规则对标签进行相应的筛选
同时作者也提出-8m的数据量较大以及种类的多样性，对进一步视频理解与表征学习有进一步的促进作用。

文章插图
作者将视频的前六分钟以一帧每秒来解码，将其喂进，将最后一层隐藏层的relu激活后的输出作为特征表示。每秒的视频都是2048维。同时移除了动作的特征，研究表明随着视频的大小与多样性的提升，效果会递减。
后续，作者使用了PCA+白化处理，量化来对数据进行压缩，同时作者说明了大小的变化只会造成1%的变化。
from Frame
对于frame-level的特征，作者给出了三种参考方法：+ ， deep bag of ， lstm 。
Video level
作者提出利用frame-level特征来表示video-level特征

文章插图
同时针对video-level给出了相应的模型
from Video
作者提出三种参考方法：hinge loss ， , -of-2-
整体来看， lstm表现较好，同时作者提出可以使用从video中取样多个定长的片段后平均结果来进行数据增强。
【YouTube-8M: A Large】这对处理frame-level 是个很好的想法。