论文标题:Transformers Meet Visual Learning Understanding: A Comprehensive Review

论文链接:https://arxiv.org/abs/2203.12944

作者单位:西安电子科技大学

动态注意力机制和全局建模能力使Transformer表现出强大的特征学习能力。近年来,Transformer 在计算机视觉中已经可以与 CNN 方法相媲美。这篇综述主要考察了Transformer在图像和视频应用中的研究进展,对Transformer在视觉学习理解中的应用进行了全面的概述。首先,回顾了注意力机制,它在Transformer中起着至关重要的作用。然后介绍了可视化Transformer模型以及各个模块的原理。第三,研究了现有的基于 Transformer 的模型,并比较了它们在视觉学习理解应用中的性能。研究了计算机视觉的三个图像任务和两个视频任务。前者主要包括图像分类、目标检测和图像分割。后者包含对象跟踪和视频分类。这对于在几个公共基准数据集上比较不同模型在各种任务中的性能具有重要意义。最后总结了十个普遍存在的问题,并对可视化 Transformer 的发展前景进行了展望。

内容中包含的图片若涉及版权问题,请及时与我们联系删除