视频压缩论文笔记26 -- 【CVPR2020】M( 三 ) _压缩

x ^ t \ \hat{x}_t x^t?，重构/解码帧；
r t \ r_t rt?，原始帧 x t \ x_t xt?和预测帧 x ˉ t \ \bar{x}_t xˉt?之间的残差；
r ^ t ′ \ \hat{r}'_t r^t′?，表示残差auto-重建的残差；
r ^ t \ \hat{r}_t r^t?，表示最终解码残差；
v t \ v_t vt?，表示时间步长 t \ t t处原始MV；
v ˉ t \ \bar{v}_t vˉt?，预测MV；
v ^ t \ \hat{v}_t v^t?，解码MV；
d t \ d_t dt?，原始MVv t \ v_t vt?和预测MVv ˉ t \ \bar{v}_t vˉt?之间的MV差（MVD）；
d ^ t \ \hat{d}_t d^t?，表示MVD auto-重建的MVD；
v ^ t ′ \ \hat{v}'_t v^t′?，表示通过将 d ^ t \ \hat{d}_t d^t?加到 v ˉ t \ \bar{v}_t vˉt?中重建的MV；
在自动编码器的非线性变换中，残差 r t \ r_t rt?和MVDd t \ d_t dt?被转换成 y t \ y_t yt?和 m t \ m_t mt?，y ^ t \ \hat{y}_t y^?t?和 m ^ t \ \hat{m}_t m^t?分别是相应的量化版本。
3.1.of the
图1分别是DVC和M-LVC的方案，M-LVC中新增了4个模块（图种蓝色框）。具体如下：
Step 1.and .
将当前原始帧 x t \ x_t xt?和前一重构帧 x ^ t ? 1 \ \hat{x}_{t-1} x^t?1?送入运动估计网络（ME-Net）中，提取运动信息 v t \ v_t vt?，本文基于目前最先进的光流网络.0[11] 。不像DVC中那样直接编码像素级的MV（ v t \ v_t vt?）（这会导致较高的编码成本），而是采用MV预测网络（MAMVP-Net）来预测当前的MV，这可以很大程度上消除MV的时间冗余。详见第3.2节。
Step 2.and .
运动预测后，使用MVD编码器/解码器网络对原始MV（ v t \ v_t vt?）和预测的MV（ v ˉ t \ \bar{v}_t vˉt?）之间的差 d t \ d_t dt?进行编码，网络结构与[3]相似。该MVD编解码网络可以进一步去除 d t \ d_t dt?中存在的空间冗余。具体而言，首先将 d t \ d_t dt?非线性映射到潜在表示 m t \ m_t mt?中，然后通过舍入运算量化到 m ^ t \ \hat{m}_t m^t? 。然后由[3]中提出的CNNs估计出 m ^ t \ \hat{m}_t m^t?的概率分布。在推断阶段，使用估计的分布将 m ^ t \ \hat{m}_t m^t?熵编码为比特流。然后，可以通过非线性逆变换从熵解码后的 m ^ t \ \hat{m}_t m^t?中重构 d ^ t \ \hat{d}_t d^t? 。由于解码后的 d ^ t \ \hat{d}_t d^t?包含量化带来的误差，尤其是在低比特率下，因此建议使用MV优化网络（MV -Net）来减少量化误差并提高质量。然后，将优化后的MV（ v ^ t \ \hat{v}_t v^t?）缓存在解码的MV缓冲器中，用于下一帧编码。详见第3.3节。
Step 3..
重构MV后，使用运动补偿网络（MMC-Net）获得预测帧 x ˉ t \ \bar{x}_t xˉt? 。跟DVC中仅使用一个参考帧进行运动补偿不同，M-LVC的MMC-Net可以通过使用多个参考帧来生成更准确的预测帧。详见第3.4节。
Step 4.and .
运动补偿后，残差编解码网络对原始帧 x t \ x_t xt?和预测帧 x ˉ t \ \bar{x}_t xˉt?之间的残差 r t \ r_t rt?进行编码。网络结构类似于[4] 。该残差编解码网络可以通过非线性变换进一步消除 r t \ r_t rt?中存在的空间冗余，由于其有效性，DVC中也使用了这种方法[15] 。与 d t \ d_t dt?压缩类似，残差 r t \ r_t rt?首先转换为 y t \ y_t yt?，然后量化为 y ^ t \ \hat{y}_t y^?t? 。然后[4]中提出的CNNs估计 y ^ t \ \hat{y}_t y^?t?的概率分布。在推理阶段，使用估计分布将 y ^ t \ \hat{y}_t y^?t?熵编码为比特流。然后，可以通过非线性逆变换从解码后的 y ^ t \ \hat{y}_t y^?t?重构残差 r ^ t ′ \ \hat{r}'_t r^t′? 。解码的 r ^ t ′ \ \hat{r}'_t r^t′?包含量化误差，因此使用残差优化网络（ -Net）来减少量化误差并提高质量。详见第3.5节。
Step 5. Frame .
在优化残差后，将 r ^ t \ \hat{r}_t r^t?加到预测帧 x ˉ t \ \bar{x}_t xˉt?上来获得重构帧 x ^ t \ \hat{x}_t x^t? 。然后将重构帧 x ^ t \ \hat{x}_t x^t?缓存在解码的帧缓冲器中以用于下一帧编码。

视频压缩 论文笔记26 -- 【CVPR2020】M( 三 )

视频压缩论文笔记26 -- 【CVPR2020】M( 三 )