M _运动补偿_甘肃龙网

文献地址：
代码地址：
文章入选，网络上已经有对本文进行了简单解读（，），本文是对DVC的改进，因为在实际工作中，我们对DVC也进行了深入了解并复现，所以非常有必要对本文进行学习，对文献的理解做一下记录。
目录
一、概述
二、本文贡献
三、论文思想
四、实验
五、结论
一、概述
因为DVC的编解码框架类似于混合编解码框架，所以减少MV和残差的码率是优化的关键， DVC框架的P帧编码是借助前一个解码帧进行运动估计、运动补偿、残差编解码等相关操作，而本文是借助借助前面多帧进行这些操作，理论上是可以提升DVC的编解码性能，可以减缓错误传播的速度。
二、本文贡献
1、对基于学习的端到端视频编解码框架增加四个模块：基于多帧的运动估计、基于多帧的运动步长、运动优化、残差优化；
2、只采用优化一个率失真损失函数和step-by-step的训练策略。
3、性能超过现有基于学习的视频编解码和H265算法（低延时）。
三、论文思想
1、本文提出的方法见下图，蓝色框为本文创新：增加的四个模块。
编解码流程与DVC一致，本文对光流编解码除了多参考帧和MV优化，还有另外一个改进：并不是直接编解码光流，而是对预测光流与原始光流的残差进行编解码。
2、MAMVP-Net ，多尺度对齐运动预测网络
采用先前多个重构的MV对当前MV进行预测，上面网络图中采用先前三个重构MV进行预测。首先，对先前每个MV进行金字塔特征提取，见（a）
其次，考虑到先前重构MV有错误，对抽取的金字塔特征进行warp：
再次，利用金字塔网络从粗到细预测当前MV ，见(b) 。
3、光流优化网络。因为量化会引起一些压缩错误，尤其在低码率时，所以本文提出了光流优化网络。网络结构：
4、多参考运动补偿网络，网络结构见下图：
5、残差优化网络。网络结构：
6、训练策略
损失采用率失真：

文章插图
作者原来是除了光流（.0 ，初始化采用原作者参数）外其他网络联合训练，发现码率严重不均衡：残差码率很大，而光流码率很小。于是他们采用这样的分步训练方法：
作者这个策略让我想起在复现DVC时，联合训练也是走了一些弯路，毕竟这么多网络，一个网络参数优化方向跑偏，就会导致整个联合训练失败，最后我摸索出来的DVC训练策略是这样的：1、先固定MV参数，不引入光流编解码和光流编码熵估计网运网络，先联合训练运动补偿（原始光流进行运动补偿）和残差编解码、残差编码熵估计网络；2、然后再加入光流编解码和光流编码熵估计；3、除了光流估计网络，所有网络联合训练并迭代一些epoch后，最后放开光流网络参数固定限制，所有网络联合训练。还有一个tips：残差熵估计和光流编码熵估计网络也可以先不进行联合训练，等其他网络收敛到一定程度后，再加入熵估计网络联合训练也可以。
四、实验
1、在UVG、HEVC Class B、HEVC Class D三个数据集上， PSNR和MS-SSIM指标均有显著提高。