视频压缩 论文笔记26 -- 【CVPR2020】M( 三 )


x ^ t \ \hat{x}_t x^t?,重构/解码帧;
r t \ r_t rt?,原始帧 x t \ x_t xt?和预测帧 x ˉ t \ \bar{x}_t xˉt?之间的残差;
r ^ t ′ \ \hat{r}'_t r^t′?,表示残差auto-重建的残差;
r ^ t \ \hat{r}_t r^t?,表示最终解码残差;
v t \ v_t vt?,表示时间步长 t \ t t处原始MV;
v ˉ t \ \bar{v}_t vˉt?,预测MV;
v ^ t \ \hat{v}_t v^t?,解码MV;
d t \ d_t dt?,原始MVv t \ v_t vt?和预测MVv ˉ t \ \bar{v}_t vˉt?之间的MV差(MVD);
d ^ t \ \hat{d}_t d^t?,表示MVD auto-重建的MVD;
v ^ t ′ \ \hat{v}'_t v^t′?,表示通过将 d ^ t \ \hat{d}_t d^t?加到 v ˉ t \ \bar{v}_t vˉt?中重建的MV;
在自动编码器的非线性变换中,残差 r t \ r_t rt?和MVDd t \ d_t dt?被转换成 y t \ y_t yt?和 m t \ m_t mt?,y ^ t \ \hat{y}_t y^?t?和 m ^ t \ \hat{m}_t m^t?分别是相应的量化版本 。
3.1.of the
图1分别是DVC和M-LVC的方案,M-LVC中新增了4个模块(图种蓝色框) 。具体如下:
Step 1.and .
将当前原始帧 x t \ x_t xt?和前一重构帧 x ^ t ? 1 \ \hat{x}_{t-1} x^t?1?送入运动估计网络(ME-Net)中,提取运动信息 v t \ v_t vt?,本文基于目前最先进的光流网络.0[11] 。不像DVC中那样直接编码像素级的MV( v t \ v_t vt?)(这会导致较高的编码成本),而是采用MV预测网络(MAMVP-Net)来预测当前的MV,这可以很大程度上消除MV的时间冗余 。详见第3.2节 。
Step 2.and .
运动预测后,使用MVD编码器/解码器网络对原始MV( v t \ v_t vt?)和预测的MV( v ˉ t \ \bar{v}_t vˉt?)之间的差 d t \ d_t dt?进行编码,网络结构与[3]相似 。该MVD编解码网络可以进一步去除 d t \ d_t dt?中存在的空间冗余 。具体而言,首先将 d t \ d_t dt?非线性映射到潜在表示 m t \ m_t mt?中,然后通过舍入运算量化到 m ^ t \ \hat{m}_t m^t? 。然后由[3]中提出的CNNs估计出 m ^ t \ \hat{m}_t m^t?的概率分布 。在推断阶段,使用估计的分布将 m ^ t \ \hat{m}_t m^t?熵编码为比特流 。然后,可以通过非线性逆变换从熵解码后的 m ^ t \ \hat{m}_t m^t?中重构 d ^ t \ \hat{d}_t d^t? 。由于解码后的 d ^ t \ \hat{d}_t d^t?包含量化带来的误差,尤其是在低比特率下,因此建议使用MV优化网络(MV -Net)来减少量化误差并提高质量 。然后,将优化后的MV( v ^ t \ \hat{v}_t v^t?)缓存在解码的MV缓冲器中,用于下一帧编码 。详见第3.3节 。
Step 3..
重构MV后,使用运动补偿网络(MMC-Net)获得预测帧 x ˉ t \ \bar{x}_t xˉt? 。跟DVC中仅使用一个参考帧进行运动补偿不同,M-LVC的MMC-Net可以通过使用多个参考帧来生成更准确的预测帧 。详见第3.4节 。
Step 4.and .
运动补偿后,残差编解码网络对原始帧 x t \ x_t xt?和预测帧 x ˉ t \ \bar{x}_t xˉt?之间的残差 r t \ r_t rt?进行编码 。网络结构类似于[4] 。该残差编解码网络可以通过非线性变换进一步消除 r t \ r_t rt?中存在的空间冗余,由于其有效性,DVC中也使用了这种方法[15] 。与 d t \ d_t dt?压缩类似,残差 r t \ r_t rt?首先转换为 y t \ y_t yt?,然后量化为 y ^ t \ \hat{y}_t y^?t? 。然后[4]中提出的CNNs估计 y ^ t \ \hat{y}_t y^?t?的概率分布 。在推理阶段,使用估计分布将 y ^ t \ \hat{y}_t y^?t?熵编码为比特流 。然后,可以通过非线性逆变换从解码后的 y ^ t \ \hat{y}_t y^?t?重构残差 r ^ t ′ \ \hat{r}'_t r^t′? 。解码的 r ^ t ′ \ \hat{r}'_t r^t′?包含量化误差,因此使用残差优化网络( -Net)来减少量化误差并提高质量 。详见第3.5节 。
Step 5. Frame .
在优化残差后,将 r ^ t \ \hat{r}_t r^t?加到预测帧 x ˉ t \ \bar{x}_t xˉt?上来获得重构帧 x ^ t \ \hat{x}_t x^t? 。然后将重构帧 x ^ t \ \hat{x}_t x^t?缓存在解码的帧缓冲器中以用于下一帧编码 。