深度学习基础:压缩视频增强调研( 三 )


本文的主要贡献是:
(1)分析了各种视频编码标准压缩后的视频序列的帧级质量波动 。
(2)我们提出了一种新的基于CNN的MFQE方法,该方法利用相邻的PQF来减少非PQF的压缩伪影 。
2.STDF网络
给定一个2R + 1帧级联的压缩视频剪辑,首先采用偏移量预测网络生成可变形偏移量场 。利用该偏移场(运动估计),进行时空变形卷积(运动、补偿),融合时间信息,生成融合的特征图 。最后,利用QE网络计算增强残差映射,将残差映射重新添加到压缩后的目标帧中,得到最终的增强结果 。上图展示了STDF网络的框架,它由一个时空变形融合(STDF)模块和一个质量增强(QE)模块组成 。
STDF模块以目标帧和参考帧为输入,通过时空可变形卷积融合上下文信息,其中可变形偏移量由偏移量预测网络自适应生成 。然后,通过融合特征映射,QE模块引入全卷积增强网络来计算增强结果 。由于STDF模块和QE模块都是卷积的,所以我们统一的框架可以端到端进行训练 。
3.MFQE2.0
MFQE2.0在MFQE1.0上的最大改变就是检测视频帧序列的PQF帧不同,MFQE2.0首先训练一个基于双向长短期记忆()的模型作为一个无引用的方法来检测PQF 。然后,提出了一种新型的多帧CNN (MF-CNN)结构,该结构将当前非PQF和相邻的PFQ作为输入,用于非PQF的质量增强 。
4.存在问题
然而,以往方法的训练集规模是递增的,不同的方法也是在不同的测试集上进行测试的 。也就是说,我可以以前的网络通过大量的压缩视频来训练,通过大数据来提升网络质量,其次,网络中,使用的训练数据是不一样的,在进行不同网络的横向比较时,不是很客观 。
五、现在的压缩视频增强方法(2021年)
NTIRE 2021压缩视频质量增强的挑战赛上,出现了很多优秀的增强网络,他们几乎都是基于前面提的的网络的一个改进,在这次比赛中,引入了一个大规模多样化视频(LDV)数据集,这个数据集可以让让我们训练出更适合压缩视频增强的网络 。在这次视频增强比赛中,又有三个赛道:Track 1和Track 2旨在增强HEVC在固定QP下压缩的视频Track 3旨在增强x265在固定比特率下压缩的视频 。
这三条赛道共吸引了482人报名 。在测试阶段,分别有12支队伍、8支队伍和11支队伍提交了、和的最终结果 。
注意:Track 1和Track 3的质量增强目标是提高保真度(PSNR), Track 2的质量增强目标是提高感知质量 。
以下是三个赛道前几名的排名情况 。
Table 1. Theof Track 1 (fixed QP, )
Table 2. Theof Track 2 (fixed QP, )
Table 3. Theof Track 3 (fixed bit-rate, )
1.LDV数据集
本文提出的LDV数据集中的视频示例,包含10类场景 。左边的四列显示了NTRIE挑战中用于训练的部分视频 。中间的两列是验证的视频 。右边两列是测试视频,左边一列是和Track 2的测试集,最右边一列是Track 3的测试集 。
LDV数据集包含240个视频,包含10类场景,即动物、城市、特写、时尚、人、室内、公园、风景、运动和车辆 。在LDV的240个视频中,快速动作视频48个,高帧率视频68个( 50),低帧率视频172个( 30) 。在75个LDV视频中,摄像机会有轻微的抖动(例如,用手持摄像机拍摄),而在LDV中有20个视频是在黑暗的环境中拍摄的,例如,在夜间或在光线不足的房间中 。在NTIRE 2021的挑战中,我们将LDV数据集分为训练集、验证集和测试集,分别包含200个、20个和20个视频 。测试集进一步分为两组,每组10个视频,分别为固定QP ( 1和2)和固定比特率(Track 3)的轨道 。
这20个验证视频由10个场景类别的视频组成,每个类别有两个视频 。每个测试集有一个来自每个类别的视频 。每个测试集的20个验证视频中有9个帧率较高,每个测试集的10个视频中有4个帧率较高 。验证集中有5个快动视频 。在固定QP和固定比特率轨道的测试集中,分别有3个和2个快动视频 。2. AI & FDU Team