视频压缩 论文笔记26 -- 【CVPR2020】M( 二 )


此外,在本文方案中,作者设计了一个MV优化网络(MV)和一个残差优化()网络 。由于使用深度自动编码器来压缩MV(resp. ),所以压缩是有损的,并且在解码后的MV(resp. )中会产生错误 。采用MV(resp. )优化网络补偿压缩误差,提高重建质量 。还使用了多个参考帧和/或相关的多个MV在残差/MV优化网络中的应用 。
总之,技术贡献包括:
DVC说自己优于H.264,M-LVC又来说自己优于H.264和H.265,实质上是跟H.264和H.265的模式去对比的(还设置了I帧间隔和B帧数目…),测了下H.264和H.265的默认参数,HEVC-上M-LVC算略差于H.264吧,UVG上差的挺多…
ps:模式通过-参数来设置,主要用来调节编码速度和质量的平衡,速度越慢,质量越好,压缩比越大,默认是(10个档:,,,,fast,,slow,,,)
2.Work 2.1.Image
近年来,基于深度学习的图像压缩方法取得了很大的进展[3,4,12,16,25,26] 。与传统图像编解码器(如JPEG[27]、[21]和BPG[5]中的手工技术不同,新方法可以从数据中学习非线性变换,并以端到端的方式估计熵编码所需的概率 。在[12,25,26]中,基于长短时记忆(LSTM)的自动编码器被用来逐步地对原始图像和重建图像之间的差异进行编码 。此外,有一些研究利用卷积神经网络(CNN)的自动编码器压缩图像[3,4,16,24] 。例如,Ball’e等人[3]在基于CNN的自动编码器中引入了一个非线性激活函数,即广义除法归一化(GDN),并使用完全连接的网络估计潜在表示的概率 。该方法的性能优于 。它没有考虑输入自适应熵模型 。Ball’e等人在[4]中引入了一个输入自适应熵模型,该模型使用零均值高斯分布对每个潜在表示进行建模,并通过参数变换预测标准差 。最近,等人[16]通过整合上下文自适应模型进一步改进了上述输入自适应熵模型,他们的方法优于BPG 。本文基于文献[3,4]中的图像压缩方法,设计了运动矢量和残差的压缩模块 。我们注意到在学习图像压缩模型方面的新进展可以很容易地集成到我们的方案中 。
2.2.Video
与学习图像压缩相比,学习视频压缩的相关工作要少得多 。2018年,Wu等人提出了一种基于RNN的插值视频压缩方法[32] 。他们首先使用图像压缩模型来压缩关键帧,然后使用分层插值生成其余帧 。采用传统的基于块的运动估计提取运动信息,并采用传统的图像压缩方法进行编码 。Han等人提出使用变分自动编码器(VAEs)压缩序列数据[9] 。他们的方法共同学习将原始视频转换为低维表示,并根据时间条件概率模型对这些表示进行熵编码 。然而,他们的模型仅限于低分辨率视频 。最近,等人提出了一种基于插值的视频压缩方案,其中运动和混合系数直接从潜在表示中解码,残差直接在潜在空间中计算[8] 。但插值模型和残差压缩模型并没有联合优化 。
虽然上述方法是为随机访问模式设计的,但其他一些方法也被开发用于低延迟模式 。例如,Lu等人提出用基于CNN的组件来代替传统视频压缩框架中的模块,即运动估计、运动压缩、运动补偿和残差压缩[15] 。他们的模型直接压缩运动信息,并且仅使用前一帧作为运动补偿的参考 。等人提出通过保持一个潜在状态来利用多个参考帧的信息[19] 。由于隐态的存在,其模型难以训练,且对传输误差敏感 。我们的方案也针对低延迟模式进行了定制,我们将在下面更具体地与[15]进行比较 。
3.
.
V = { x 1 , x 2 , . . . , x t , . . . } \ V={x_1,x_2,...,x_t,...} V={x1?,x2?,...,xt?,...},表示原始视频序列;
x t \ x_t xt?,表示时间步长 t \ t t处的原始帧;
x ˉ t \ \bar{x}_t xˉt?,预测帧;