论文链接:https://arxiv.org/pdf/2203.12944.pdf

动态注意力机制和全局建模能力使Transformer表现出较强的特征学习能力。近年来,Transformer在计算机视觉方面已经可以媲美CNN方法。本文主要研究了Transformer在图像和视频应用中的研究进展,对Transformer在视觉学习理解中的应用进行了全面的综述。首先,回顾了在Transformer中起着重要作用的注意力机制。然后介绍了视觉Transformer模型和各个模块的工作原理。第三,研究了现有的基于Transformer的模型,并比较了它们在视觉学习理解应用中的性能。研究了计算机视觉的三个图像任务和两个视频任务。前者主要包括图像分类、目标检测和图像分割。后者包括目标跟踪和视频分类。它对于比较不同模型在多个公共基准数据集上的不同任务性能具有重要意义。最后,总结了视觉Transformer存在的10个普遍问题,并对其发展前景进行了展望。

内容中包含的图片若涉及版权问题,请及时与我们联系删除