2 Transformer综述大全【A Survey of Visual Tr( 四 )


受多头注意设计的启发,采用多重初始令牌策略进一步提高分类性能 。然而,deit [38]指出这些额外的标记会向相同的结果收敛,这对 vit 没有好处 。从另一个角度来看,yolos [73]提供了一种通过使用多个初始标记来统一分类和检测的范例,但是这种只使用编码器的设计会导致过多的计算复杂性 。基于 cait [40]的观察,后一种类令牌可以减少的几次浮点运算,并略有提高(从79.9% 提高到80.5%) 。[84]也显示了这种策略在分割任务中的效率 。与之后使用仅编码器的多个令牌相比,编码器-解码器结构节省了更多的计算 。它通过使用一小组对象查询(掩码嵌入)来标准化检测[28]和分割[137]字段中的方法 。结合多个后续标记和对象查询(掩码嵌入)的形式,以对象查询和可学习解码器嵌入(相当于多个后续标记)为输入的可变形分离器[67]结构,可以将基于不同任务的可学习嵌入统一到编码器-解码器中 。
未来的研究
视觉方法取得了巨大的进步,并显示了有希望的结果,接近或超过 sota cnn 方法的记录在多个基准 。然而,该技术还不成熟,不足以打破卷积在中国植物遗传育种领域的主导地位 。根据 sec 的分析 。在 vi-b 中,我们指出了一些有希望的未来方向的可视化,为进一步的全面连接 。
【2Transformer综述大全【A Survey of Visual Tr】1)设置预测: 正如在 sec 中提到的 。Vi-b3,由于损失函数的梯度相同,额外的类令牌将一致收敛[38] 。二分损失函数集合预测策略在许多密集预测任务中被广泛应用于视觉,如上所述,在分类任务中考虑集合预测设计是很自然的,如多类令牌通过集合预测预测混合补丁图像,这类似于 lvvit [41]的数据增强策略 。此外,集合预测策略中的一对一标记分配导致了早期训练的不稳定性,从而降低了最终结果的准确性 。改进集合预测与其他标签分配和损失可能有助于新的检测框架 。
2)自监督学习: 自监督预训练已经标准化了 nlp 领域,并在各种应用中取得了巨大的成功[2],[5] 。卷积连体网络作为自我监督的范式,采用对比学习方法进行自我监督的预训练,这与 nlp 中的掩码自动编码器有所不同 。近年来,一些研究尝试设计一种自监督的视觉,以弥补视觉与语言之间预训练方法的不足 。他们大多继承了神经语言处理或对比学习方案中隐藏的自动编码器 。但是,目前还没有一种像 nlp 中的 gpt-3这样革命性的视觉监督方法 。如证券交易委员会所述 。在 vi-b3中,编解码器结构可以通过学习解码器嵌入和位置编码来统一视觉任务 。编解码器的自监督学习方法值得进一步研究 。
结论
vit 在 cv 任务中的有效性得到验证后,视觉得到了相当多的关注,并逐渐削弱了 cnn 的主导地位 。在本文中,我们全面回顾了100多种已经成功应用于各种视觉任务的模型,包括分类、检测和分割 。针对每个任务,提出了一个特定的分类法来组织最近开发的方法,并对它们的性能进行了各种主流基准测试的评估 。本文通过对这些方法的综合分析和系统比较,总结了目视的显著改进,讨论了目视的三个基本问题,并提出了今后可能的研究方向 。希望本文能帮助读者在深入探索之前更好地理解视觉变形体 。