Transformers 在自然语言处理方面取得了巨大的成功。由于Transformers 具有强大的自注意力机制,研究人员开发了用于各种计算机视觉任务的视觉Transformers ,如图像识别、目标检测、图像分割、位姿估计和三维重建。本文全面概述了视觉Transformers 的不同架构设计和训练技巧(包括自监督学习)的文献。我们的目标是提供一个系统的回顾与开放的研究机会。
论文链接:https://arxiv.org/pdf/2207.03041
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢