《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

Transformers 在自然语言处理方面取得了巨大的成功。由于Transformers 具有强大的自注意力机制，研究人员开发了用于各种计算机视觉任务的视觉Transformers ，如图像识别、目标检测、图像分割、位姿估计和三维重建。本文全面概述了视觉Transformers 的不同架构设计和训练技巧(包括自监督学习)的文献。我们的目标是提供一个系统的回顾与开放的研究机会。