Rotary Position Embedding for Vision Transformer

简介

Rotary Position Embedding（RoPE）在语言模型中表现出色，特别是在Transformer的长度外推方面。然而，RoPE对计算机视觉领域的影响尚未得到充分探索，尽管RoPE似乎能够以类似于语言领域的方式增强Vision Transformer（ViT）的性能。本研究提供了RoPE应用于ViT时的全面分析，利用RoPE的实际实现来处理2D视觉数据。分析显示，RoPE表现出令人印象深刻的外推性能，即在推理时保持精度的同时增加图像分辨率。最终导致ImageNet-1k、COCO检测和ADE-20k分割的性能提高。我们相信，本研究提供了将RoPE应用于ViT的全面指南，承诺在最小的额外计算开销下提高骨干网络的性能。我们的代码和预训练模型可在https://github.com/naver-ai/rope-vit上获得。
图表
解决问题

RoPE在计算机视觉领域的应用尚未被充分探索，本文试图验证RoPE是否能够像在自然语言处理领域那样提升Vision Transformer的性能。
关键思路

本文提供了RoPE在2D视觉数据中的实际实现，探究了RoPE在推理时提高图像分辨率的能力，并在ImageNet-1k、COCO检测和ADE-20k分割数据集上证明了RoPE的性能提升。
其它亮点

本文提供了RoPE在计算机视觉领域的全面分析和实现，证明了RoPE能够提高Vision Transformer的性能；实验使用了ImageNet-1k、COCO检测和ADE-20k分割数据集，并提供了开源代码和预训练模型。
相关研究

近期在计算机视觉领域，还有一些相关的研究，如：'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale'、'Swin Transformer: Hierarchical Vision Transformer using Shifted Windows'等。

Rotary Position Embedding for Vision Transformer

评论