2 Transformer综述大全【A Survey of Visual Tr( 二 )


类似于FPN[121],Zhang et al. 。通过结合非局部[14]和多尺度特征的特点,提出了一种专用于密集预测任务的特征金字塔(FPT)[75] 。它利用三个注意力成分来模拟空间和尺度上的交互,包括自我注意、自上而下的交叉注意和自下而上的跨渠道注意 。FPT作为密集预测任务的通用主干,在许多SOTA模型的基础上得到了进一步的推广 。
3讨论
本节根据表II和表III对检测器进行简要比较和分析 。
分割

2  Transformer综述大全【A Survey of Visual Tr

文章插图
被广泛应用于分割,主要有两种方式:patch-based 和query-based。后者可以进一步分解为 withquery 与with mask。
Patch-Based
作为接受场扩展策略,CNN需要大量的解码器栈来将高层特征映射到原始的空间分辨率 。相反,依靠全局建模功能,基于面片的将输入图像视为面片序列,并将其送入柱状编码器 。这种分辨率不变策略使能够只集成一个相对简单的解码器并获得分割任务所需的性能 。
此外,一些工作[76]-[78]试图研究基于贴片的和不同分割框架之间的最佳组合[124]、[128] 。
SETR
受VIT[27]启发,郑某等人 。将视觉扩展到语义分割任务,提出了分割(SETR)[76] 。SETR用编码器替代CNN主干,除了类令牌外,遵循VIT的输入输出结构 。此外,它还采用了三种解码器方式进行每像素分类:朴素上采样(NAIVE)、渐进上采样(PUP)和多层特征聚合(MLA) 。SETR证明了编码器在分割任务中的巨大可行性,但它依赖于昂贵的GPU集群和额外的RAM,这归因于堆栈层的数量和二次计算成本 。
[77]是第一个用于医学图像分割的视觉 。它可以看作是带有MLA解码器[76]的SETR的变体,或者是U-Net[128]和的混合模型 。这种结构虽然概念简单,但取得了很好的效果,证明了视觉在这一领域的有效性 。
[78]利用一系列简单实用的方法来改进的语义分割任务,如层次结构[39]、重叠块投影[34]、高效的注意机制[34]、[39]和卷积位置嵌入[48]、[53] 。与CNN解码器使用重叠层扩展接收范围不同,重新设计了一个只有四个MLP层的轻量级解码器,作为编码器强大的全局集成能力 。实验表明,在上获得了新的SOTA结果,MIU值为51.8%,比SETR小4倍 。此外,在具有多种破坏类型的城市景观数据集上进行测试时,表现出比更强的鲁棒性 。
Query-Based
Query是在解码器的输入和输出处的可学习嵌入 。与面片嵌入相比,查询嵌入能更“公平”地整合每个面片的信息 。具有设置预测损失的基于查询的能够删除其他手工制作的表示和后处理 。最近,许多努力试图将这种表示推广到分段任务它们可以分为两类 。
一种类型的框架由对象查询驱动,该对象查询也由检测任务监督 。
另一种类型的查询仅由分割任务监督,称为掩码嵌入 。
1)带对象查询的
基于对象查询的方法有三种训练方式 。
基于DETR的预先训练的对象查询,通过分割任务进一步细化具有该查询的掩码头部(图13(A)) 。
代替多阶段训练过程,对象查询由一些端到端框架中的检测和分割任务并发建模[79] 。
另一种类型[81]试图弥合用混合级联网络构建的不同任务分支之间的差距,其中盒输出用作掩码头部的输入(图13?) 。
2)带掩码嵌入的
另一个框架致力于利用查询直接预测掩码,我们将这种基于掩码的学习查询称为掩码嵌入 。与对象查询不同,掩码嵌入只受分割任务的监督 。如图13(D)所示,两组互不相交的查询被并行地用于不同的任务 。对于语义分割和无框框架,一些研究从基于查询的中去除对象查询,并直接通过掩码嵌入来预测掩码(图13(E)) 。