论文标题:Do We Really Need Explicit Position Encodings for Vision Transformers? 论文链接:https://arxiv.org/abs/2102.10882 代码链接:https://github.com/Meituan-AutoML/CPVT 作者单位:美团 & 阿德莱德大学 本文提出CPVT:条件Position encoding视觉Transformer,可以自然地处理任意长度的输入序列,其中PEG模块可以无缝集成到现有框架中,性能优于DeiT、ViT等网络,
几乎所有的视觉Transformers(例如ViT或DeiT)都依赖于预定义的positional encodings来合并每个输入token的顺序。这些编码通常被实现为不同频率的可学习的固定维度矢量或正弦函数,无法适应可变长度的输入序列。这不可避免地限制了Transformer在视觉领域的广泛应用,在视觉领域中,许多任务需要即时更改输入大小。 在本文中,我们提出采用条件position encoding方案,该方案以输入token的局部邻域为条件。它被轻松实现为我们所谓的Position Encoding Generator(PEG),可以将其无缝集成到transformer框架中。我们使用PEG的新模型称为Conditional Position encoding Visual Transformer (CPVT),可以自然地处理任意长度的输入序列。我们证明,与预定义的位置编码相比,CPVT可以产生视觉上相似的注意力图,甚至具有更好的性能。与迄今为止的视觉transformer相比,我们在ImageNet分类任务中获得了最先进的结果。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢