2 Transformer综述大全【A Survey of Visual Tr( 三 )


讨论
作为一项基本但仍然具有挑战性的任务,分割也受益于不断发展的视觉 。我们根据三个不同的分段子任务来总结这些 。

2  Transformer综述大全【A Survey of Visual Tr

文章插图
表四重点介绍了用于语义分割任务的验证集(170个类) 。我们发现在具有大量类而不是较小类的数据集上进行训练后,性能有了很大的提高 。
表V重点介绍了COCO TEST-DEV 2017数据集,例如细分任务 。显然,带掩膜嵌入的在分割和检测任务上都超过了以前流行的模型 。这些方法显著地提高了盒的准确率,但对分割的改善却很小,导致APbox的性能与APseg的性能相差甚远 。
基于级联框架,[81]在模型中达到了SOTA性能 。与混合任务级联结构的结合值得进一步研究 。
表VI重点介绍了全景分割任务 。Max-[29]一般是通过掩码预测格式来解决全景分割任务中的前景和背景,而[85]则成功地将这种格式用于语义分割,并将语义级和实例级分割任务统一起来 。根据它们在全景分割领域的表现,可以得出结论:可以将多个分割任务统一到一个具有掩码预测的无盒框架中 。
VI.近期改进情况
根据上述比较和讨论,我们现在就以下三项基本任务的近期改进情况简要介绍一下 。
关于视觉的讨论
尽管有大量的视觉模型和应用,但对视觉的“本质”理解仍然是低效的 。因此,我们将重点关注一些关键问题,以帮助解决读者的困惑 。
1)如何搭建语言和视觉之间的桥梁
最初是为机器翻译任务设计的 。在语言模型中,句子中的每个单词都被看作是一个基本单位,代表着高层次、高维度的语义信息 。这些单词可以嵌入到低维向量空间表示中,因此称为单词嵌入 。在视觉任务中,图像的每个像素都是低层次的低维语义信息,这与嵌入特征不匹配 。因此,将图像转换为视觉任务的关键是建立图像到矢量的转换,并保持图像的特征 。例如,vit [27]通过强松弛条件将图像转换为具有多个低级信息的补丁嵌入,而早期 conv[50]和[37]利用卷积提取高级信息并减少从补丁中的冗余特征 。
2)、自我注意与 cnn 之间的关系
从卷积的角度,如第二章所述 。其归纳偏差主要表现为局部性、平移不变性、权重分配和稀疏连接 。这种简单的卷积核能够有效地进行模板匹配,但由于感应偏置较强,其上限低于 。从自我注意机制的角度,如证券交易委员会 。Iii-b 和 sec 。当给定足够数量的磁头时,它理论上可以表示任何卷积层 。这种全注意操作可以交替地将局部注意和全局注意结合起来,并根据特征之间的关系动态地产生注意权重 。即便如此,它的实用性还是比较差,准确度和计算复杂度都比 sota cnn 低 。从的角度,董等人论证了自我注意层对“令牌一致性”表现出强烈的归纳偏见时,训练深层没有短连接或 ffns [94] 。结果表明,由两个关键部件组成: 一个自注意层聚合了标记之间的关系,一个位置方向的 ffn 提取输入特征 。尽管具有强大的全局建模能力,如 sec 所示 。Iii-c 和 vi-b1,卷积可以有效地处理低层特征[37],[50],增强[45],[70]的局部性,并通过填充[48],[49],[102]追加位置特征 。
3)可学习嵌入不同视觉任务
模型使用可学习嵌入来执行不同的视觉任务 。从监控任务的角度来看,这些嵌入可以分为类标记、对象查询和掩码嵌入 。从结构的角度看,二者之间存在着内在的联系 。现有的方法主要采用两种不同的模式,即编码结构和编解码结构 。如图16所示,每个结构由三个嵌入应用程序级别组成 。从位置层面上,将学习嵌入在编码器中的应用分解为初始令牌[27]、[73]和后续令牌[40]、[84],将学习位置编码[28]、[70]、[137]和学习解码器输入嵌入[67]应用到编码器结构中 。从数量级来看,编码器专用设计应用不同数量的令牌 。例如,vit [27]、[38]和 yolos [73]在初始层中附加不同的数字标记,而 cait [40]和[84]利用这些标记在不同的任务中表示最后几个层的特性 。在编解码器结构中,对象查询[28]、[70]或掩码嵌入[137]中所学习的解码器位置编码被显式[28]、[137]或隐式[69]、[70]附加到解码器输入端 。与常量输入不同,可变形分离器[67]采用学习嵌入作为输入,并注意编码器的输出 。