Rotary Position Embedding for Vision Transformer

2024年03月20日
  • 简介
    Rotary Position Embedding(RoPE)在语言模型中表现出色,特别是在Transformer的长度外推方面。然而,RoPE对计算机视觉领域的影响尚未得到充分探索,尽管RoPE似乎能够以类似于语言领域的方式增强Vision Transformer(ViT)的性能。本研究提供了RoPE应用于ViT时的全面分析,利用RoPE的实际实现来处理2D视觉数据。分析显示,RoPE表现出令人印象深刻的外推性能,即在推理时保持精度的同时增加图像分辨率。最终导致ImageNet-1k、COCO检测和ADE-20k分割的性能提高。我们相信,本研究提供了将RoPE应用于ViT的全面指南,承诺在最小的额外计算开销下提高骨干网络的性能。我们的代码和预训练模型可在https://github.com/naver-ai/rope-vit上获得。
  • 图表
  • 解决问题
    RoPE在计算机视觉领域的应用尚未被充分探索,本文试图验证RoPE是否能够像在自然语言处理领域那样提升Vision Transformer的性能。
  • 关键思路
    本文提供了RoPE在2D视觉数据中的实际实现,探究了RoPE在推理时提高图像分辨率的能力,并在ImageNet-1k、COCO检测和ADE-20k分割数据集上证明了RoPE的性能提升。
  • 其它亮点
    本文提供了RoPE在计算机视觉领域的全面分析和实现,证明了RoPE能够提高Vision Transformer的性能;实验使用了ImageNet-1k、COCO检测和ADE-20k分割数据集,并提供了开源代码和预训练模型。
  • 相关研究
    近期在计算机视觉领域,还有一些相关的研究,如:'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale'、'Swin Transformer: Hierarchical Vision Transformer using Shifted Windows'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论