读论文 Early Exit or Not: Resource

有损图像压缩普遍被用来节约传输带宽,这导致了不好的压缩伪影 。最近,大量的方法被提出来去减少编码端的压缩伪影,但是这些方法需要训练多个相同结构的模型来处理不同质量的视频,这不高效也很浪费资源 。此外,在实践中,大家都知道如果不知道压缩图像的质量,那么很难选择一个合适的模型去处理 。在这篇文章里,我们提出高效的未知压缩质量的图像增强方法RBQE 。具体来说,我们的方法通过一个动态深度神经网络来盲目地渐进地处理压缩图像,方法中嵌入了提前退出机制(early-exit) 。然后我们的方法可以根据增强图像的估计质量来自动地决定终止或者继续处理,因此不严重的伪影可以去除的更快,更简单;严重的伪影可以进一步用复杂的步骤处理 。大量的实验证明我们的方法在盲质量增强和资源利用方面都是最好的 。
… 对于一个模型多个QP,这些方法的缺点 (1) QP 并不能真实地反映图像的质量 。(2)这些方法要训练多个模型,资源和计算量消耗都很大 。(3)低质量图像和高质量图像都是一样的计算量,这会导致高质量图像处理的参数量消耗过多了,低质量的又不够,通过对不同质量的图像采用不同复杂度的模型可以降低总的复杂度,对低质量图像用更高的复杂度,这样提高处理速度也能处理的更好 。因此,理想的方法应该能自动的选择简单或者复杂的模型去处理高质量的或者低质量的压缩图像,所谓的盲质量图像增强 。
图一是低质量图像和高质量图像对于不同复杂度的处理得到的增益 。(文章认为高质量图像更好处理,easy ) 。这个图说明提升复杂度对高质量的压缩图像带来的增益小于低质量的 。
文章设计了一个动态的深度神经网络去增强压缩图像,估计图像质量,然后自动决定继续处理还是结束处理 。
Image(IQAM) 切比雪夫质量估计模块,估计压缩伪影的剧烈程度 。
Work
图二是盲处理的三种方式,b是将不同噪声级别的压缩图像混合打乱后作为训练数据,缺点是在测试数据和训练数据噪声级别匹配错误的时候处理效果会严重下降 。c用一个子网络来估计噪声级别,用估计的噪声级别来引导增强,c一般比b效果好,但是c不适合压缩图像增强,有两个原因,自网络估计的噪声级别map不能很好的表示压缩噪声的级别,因为压缩噪声一般都比较复杂不是普通的独立白噪声,不论高质量图像还是低质量图像都用相同的网络,效率也不高 。文章提出的网络如a所示
文章解决了三个问题,1是怎么决定哪些是质量好哪些是质量差的图像,2怎么设计动态网络去渐进式的增强,3 怎么测量增强后的压缩噪声然后决定提前结束 。
1,高质量压缩图像可以少处理,低质量压缩图像可以进一步处理 2,处理过程可以有不同的复杂度,处理方式从简单到复杂,而不是从复杂到简单 。
Proof of1.
简单的不同层数的CNN,用QP37,42编码来获得高质量和低质量压缩图像,easy hard 。在qp37,42上分别训练不同层的网络 。如图3a所示
文章上说qp42更容易饱和,37的适应更大的复杂度 。我从这个图上没有看到多大的差别 。
Proof of2.
在高质量压缩图像(easy)上训练的模型迁移到低质量压缩图像(hard)如果效果比相反操作比较小的话,那么easy to hard 就比较好 。为了证明这一点,文章构建了两个一模一样的10层简单CNN,在QP37,42上训练,收敛之后交换两个模型的前四层的参数,再训练,交换了之后的前四层的参数固定,不再改变 。从图3,b可以看出,qp37上训练的参数直接用到42上,有gain(黄色虚线) 。反之,有轻微下降 。所以证明了 easy to hard 是比较好的 。这个结论在jpeg压缩图像上也成立 。