Transformer系列的算法模型是当下研究的热点之一。基于Transformer的模型在自然语言处理、计算机视觉等领域得到了广泛的应用,最具代表性的就是作为预训练模型的核心构件,如BERT等。之前已经有相关系列Transformer综述。来自中科院计算所的研究人员从计算机视觉三个基本任务(分类、检测和分割)的角度对一百多种不同的视觉变换器进行了综述,值得关注。
论文链接:https://arxiv.org/abs/2012.12556
摘要
Transformer 是一种基于注意力的编码器-解码器架构,彻底改变了自然语言处理领域。受这一重大成就的启发,最近在将类似 Transformer 的体系结构应用于计算机视觉 (CV) 领域方面进行了一些开创性工作,这些工作已经证明了它们在各种 CV 任务上的有效性。与现代卷积神经网络 (CNN) 相比,visual Transformers 依靠有竞争力的建模能力,在 ImageNet、COCO 和 ADE20k 等多个基准测试中取得了令人印象深刻的性能。在本文中,我们全面回顾了针对三个基本 CV 任务(分类、检测和分割)的一百多种不同的视觉变换器,其中提出了一种分类法来根据它们的动机、结构和使用场景来组织这些方法. 由于训练设置和面向任务的差异,我们还在不同的配置上评估了这些方法,以方便直观地进行比较,而不仅仅是各种基准测试。此外,我们揭示了一系列基本但未开发的方面,这些方面可能使 Transformer 从众多架构中脱颖而出,例如,松弛的高级语义嵌入以弥合视觉和顺序 Transformer 之间的差距。最后,提出了三个有前景的未来研究方向,以供进一步研究。
本文旨在对近期的视觉Transformer进行全面的回顾,并对现有的方法进行系统的分类:
(1)全面性和可读性。本文全面回顾了100多个视觉Transformers的三个基本任务:分类、检测和分割。我们选取并分析了50多个具有代表性的模型,如图2所示。我们不仅从单一的角度对每个模型进行详尽的分析,而且还通过递进、对比和多视角分析等意义来建立它们之间的内在联系。
(2)直观的比较。由于这些Transformers在不同的任务中遵循不同的训练方案和超参数设置,本综述通过将它们在不同的数据集和限制下分离,呈现了多个横向比较。在此基础上,我们总结了针对每个任务设计的一系列有前途的组件,包括: 基于层次结构的主干浅局部卷积,基于稀疏注意的空间先验加速,以及用于分割的通用掩模预测方案。
(3) 深入分析。我们进一步提供了以下方面的重要见解: 从顺序任务到视觉任务的转换过程,Transformer与其他视觉网络之间的对应关系,以及不同任务中可学习嵌入(即类标记、对象查询、掩码嵌入)的相关性。最后,展望了未来的研究方向。例如,编码器-解码器Transformer骨干可以通过学习嵌入来统一三个子任务。
本文的其余部分组织如下。第2节介绍了原始Transformer的概述架构和关键组件。第三章总结了Transformer 主干的综合分类,并简要讨论了图像分类。然后我们回顾了当代的Transformer检测器,包括第四节中的Transformer neck和backbone。第五节根据嵌入的形式(即patch embedding和query embedding),阐明了在分割领域中主流的Transformer变体。此外,第二章-第四章还简要分析了其相应领域的绩效评价的具体方面。第六章从三个方面进行了进一步的探讨,并指出了未来进一步研究的方向。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢