2 Transformer综述大全【A Survey of Visual Tr( 三 ) _分割

讨论
作为一项基本但仍然具有挑战性的任务，分割也受益于不断发展的视觉。我们根据三个不同的分段子任务来总结这些。

文章插图
表四重点介绍了用于语义分割任务的验证集(170个类) 。我们发现在具有大量类而不是较小类的数据集上进行训练后，性能有了很大的提高。
表V重点介绍了COCO TEST-DEV 2017数据集，例如细分任务。显然，带掩膜嵌入的在分割和检测任务上都超过了以前流行的模型。这些方法显著地提高了盒的准确率，但对分割的改善却很小，导致APbox的性能与APseg的性能相差甚远。
基于级联框架，[81]在模型中达到了SOTA性能。与混合任务级联结构的结合值得进一步研究。
表VI重点介绍了全景分割任务。Max-[29]一般是通过掩码预测格式来解决全景分割任务中的前景和背景，而[85]则成功地将这种格式用于语义分割，并将语义级和实例级分割任务统一起来。根据它们在全景分割领域的表现，可以得出结论：可以将多个分割任务统一到一个具有掩码预测的无盒框架中。
VI.近期改进情况
根据上述比较和讨论，我们现在就以下三项基本任务的近期改进情况简要介绍一下。
关于视觉的讨论
尽管有大量的视觉模型和应用，但对视觉的“本质”理解仍然是低效的。因此，我们将重点关注一些关键问题，以帮助解决读者的困惑。
1)如何搭建语言和视觉之间的桥梁
最初是为机器翻译任务设计的。在语言模型中，句子中的每个单词都被看作是一个基本单位，代表着高层次、高维度的语义信息。这些单词可以嵌入到低维向量空间表示中，因此称为单词嵌入。在视觉任务中，图像的每个像素都是低层次的低维语义信息，这与嵌入特征不匹配。因此，将图像转换为视觉任务的关键是建立图像到矢量的转换，并保持图像的特征。例如，vit [27]通过强松弛条件将图像转换为具有多个低级信息的补丁嵌入，而早期 conv[50]和[37]利用卷积提取高级信息并减少从补丁中的冗余特征。
2)、自我注意与 cnn 之间的关系
从卷积的角度，如第二章所述。其归纳偏差主要表现为局部性、平移不变性、权重分配和稀疏连接。这种简单的卷积核能够有效地进行模板匹配，但由于感应偏置较强，其上限低于。从自我注意机制的角度，如证券交易委员会。Iii-b 和 sec 。当给定足够数量的磁头时，它理论上可以表示任何卷积层。这种全注意操作可以交替地将局部注意和全局注意结合起来，并根据特征之间的关系动态地产生注意权重。即便如此，它的实用性还是比较差，准确度和计算复杂度都比 sota cnn 低。从的角度，董等人论证了自我注意层对“令牌一致性”表现出强烈的归纳偏见时，训练深层没有短连接或 ffns [94] 。结果表明，由两个关键部件组成: 一个自注意层聚合了标记之间的关系，一个位置方向的 ffn 提取输入特征。尽管具有强大的全局建模能力，如 sec 所示。Iii-c 和 vi-b1，卷积可以有效地处理低层特征[37]，[50]，增强[45]，[70]的局部性，并通过填充[48]，[49]，[102]追加位置特征。
3)可学习嵌入不同视觉任务
模型使用可学习嵌入来执行不同的视觉任务。从监控任务的角度来看，这些嵌入可以分为类标记、对象查询和掩码嵌入。从结构的角度看，二者之间存在着内在的联系。现有的方法主要采用两种不同的模式，即编码结构和编解码结构。如图16所示，每个结构由三个嵌入应用程序级别组成。从位置层面上，将学习嵌入在编码器中的应用分解为初始令牌[27]、[73]和后续令牌[40]、[84]，将学习位置编码[28]、[70]、[137]和学习解码器输入嵌入[67]应用到编码器结构中。从数量级来看，编码器专用设计应用不同数量的令牌。例如，vit [27]、[38]和 yolos [73]在初始层中附加不同的数字标记，而 cait [40]和[84]利用这些标记在不同的任务中表示最后几个层的特性。在编解码器结构中，对象查询[28]、[70]或掩码嵌入[137]中所学习的解码器位置编码被显式[28]、[137]或隐式[69]、[70]附加到解码器输入端。与常量输入不同，可变形分离器[67]采用学习嵌入作为输入，并注意编码器的输出。