ICIP 2021 论文阅读:LATENT

-SPACEFOR MULTI-TASK(ICIP 2021)
2022/8/1: 学校终于解封了,终于能出门吃螺狮粉了呜呜呜 。
研究了多任务协同智能的潜在空间可扩展性,其中一个任务是目标检测,另一个任务是输入重构 。在我们提出的方法中,可以有选择地解码部分潜在空间以支持目标检测,而在需要输入重构时可以解码其余的潜在空间 。当只需要对象检测时,这种方法允许减少计算资源,并且可以在不重构输入像素的情况下实现 。通过改变训练损失函数中各项的比例因子,可以训练系统在目标检测精度和输入重构质量之间实现各种权衡 。通过与相关基准相比的实验,验证了可调系统在两个任务上的性能 。
1.
基于人工智能(AI)的应用程序的快速部署正在给从手持设备到大规模云计算系统等多个系统的计算资源带来压力 。最近的研究[1,2]通过拆分AI模型,确立了协同智能(CI)的概念,作为应对此类挑战的一种方法(例如,深度神经网络,DNN)之间的边缘和云 。在这样的框架中,由模型前端产生的中间特性从边缘发送到云端 。因此,中间特征的压缩成为人们关注的话题 。相关的标准化活动包括视频编码机器(VCM)[3]和JPEG-AI [4] 。
例如,[5-9]已经证明编码中间特征可以导致显著的压缩增益,而任务准确性的损失最小 。这些研究基于现成的单任务DNN模型 。在我们早期的工作[10]中,开发了一个多任务CI模型,该模型支持对象检测和输入重构,使用中间特征的近乎无损编码 。针对不同的多任务模型,提出了利用有损特征压缩的相关方法[11,12] 。与这些方法不同的是,在这些方法中,一个特性张量被编码为支持多个后端任务,最近的提案[13,14]关注可扩展编码以支持多任务例如,[14]提出了一种可扩展的编码方法,支持人脸地标检测和生成输入人脸重建 。虽然生成解码器在人脸重建方面效果很好,但在重建输入图像的非人脸细节方面可能不太成功 。在本文中,我们提出了一个利用潜在空间可扩展性来支持目标检测和输入图像重建的CI系统 。其中,部分潜在空间(基础层)用于目标检测(基础任务),而整个潜在空间用于输入重构 。未用于基本任务的潜在空间的部分可以解释为增强层 。这种表示也可以用于其他多任务模型(例如,基本任务可以是对象检测以外的东西),并允许对输入进行高效、可扩展的学习表示 。第2节简要回顾了中间特征压缩的相关方法 。第3节描述了所提出的方法 。第4节给出实验结果,第5节给出结论 。
2.Work
早期的特征压缩方法[5 - 9]侧重于从单任务DNN编码单个特征张量,任务是图像分类[6,7]或目标检测[5] 。在这些工作中,一种流行的编码特征张量的方法是将张量平铺到图像中,应用预量化(比如,每个张量元素8位),然后使用传统的图像编解码器进行压缩 。为了进一步提高张量编码效率,[8,9]提出了张量信道预测、数据裁剪等附加方法 。
由于图像/视频分析中经常需要执行多个任务[13,15],另一组方法主要针对多任务dnn进行特征压缩[10-12] 。虽然这些工作验证了从单个压缩特征张量进行多任务分析是可行的,但没有进一步研究如何有效地组织多任务的潜在空间 。特别地,在这些方法中,需要重建整个张量来完成任意任务 。最近,[14]提出了一种可扩展的人脸图像编码特征表示 。具体地说,人脸地标检测所需的边缘映射构成基础层,附加的颜色信息构成增强层 。仅利用基础层信息即可实现人脸地标检测,而利用生成译码器可以同时利用基础层和增强层实现人脸图像的重构 。虽然[14]的主要思想非常吸引人,但目前还不清楚这种方法如何扩展到更一般的(例如,非人脸)图像编码场景 。