Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

2024年03月04日
  • 简介
    Transformers已经彻底改变了计算机视觉和自然语言处理,但是它们的高计算复杂度限制了它们在高分辨率图像处理和长上下文分析方面的应用。本文介绍了Vision-RWKV(VRWKV),这是一种从NLP领域中使用的RWKV模型改编而来的模型,经过必要的修改适用于视觉任务。类似于Vision Transformer(ViT),我们的模型旨在高效处理稀疏输入,并展现出强大的全局处理能力,同时还能有效地扩展,适应大规模参数和广泛的数据集。它的独特优势在于其降低的空间聚合复杂度,使其在处理高分辨率图像时异常灵活,消除了窗口操作的必要性。我们的评估结果表明,VRWKV在图像分类方面优于ViT,并且在处理高分辨率输入时速度更快,内存使用更少。在密集预测任务中,它优于基于窗口的模型,保持可比的速度。这些结果凸显了VRWKV作为视觉感知任务更高效的替代方案的潜力。代码发布在\url{https://github.com/OpenGVLab/Vision-RWKV}。
  • 图表
  • 解决问题
    本文旨在解决transformer模型在高分辨率图像处理和长上下文分析中计算复杂度高的问题,提出了一种适用于视觉任务的VRWKV模型。
  • 关键思路
    VRWKV模型是一种基于RWKV模型并对其进行必要修改的视觉任务模型,具有较低的空间聚合复杂度,能够高效处理高分辨率图像,消除了窗口操作的必要性。
  • 其它亮点
    实验结果表明,VRWKV模型在图像分类任务中的性能优于ViT模型,并且在处理高分辨率输入时速度更快,内存使用更少。在密集预测任务中,它也优于基于窗口的模型,并保持相当的速度。研究者已经在Github上开源了代码。
  • 相关研究
    与本文相关的研究包括Vision Transformer (ViT)模型以及其他基于transformer模型的视觉任务模型,如DeiT、CaiT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论