MSPE: Multi-Scale Patch Embedding Prompts Vision Transformers to Any Resolution

2024年05月28日
  • 简介
    虽然ViT在最近显著提高了计算机视觉任务的表现,但一个重要的现实问题被忽视了:如何适应可变的输入分辨率。通常,图像会被调整为固定的分辨率,例如224x224,以提高训练和推理的效率。然而,统一的输入大小与图像在现实场景中自然变化的情况相冲突。修改模型的预设分辨率可能会严重降低性能。在本文中,我们提出通过优化补丁嵌入来增强模型对分辨率变化的适应性。所提出的方法称为多尺度补丁嵌入(MSPE),使用多个可变大小的补丁核替换标准的补丁嵌入,并为不同的分辨率选择最佳参数,消除了调整原始图像大小的需要。我们的方法不需要高成本的训练或对其他部分的修改,因此可以轻松应用于大多数ViT模型。在图像分类、分割和检测任务中的实验表明,MSPE的有效性,对低分辨率输入产生了优越的性能,并在现有方法中在高分辨率输入上表现相当。
  • 图表
  • 解决问题
    如何提高模型对于输入分辨率变化的适应性?
  • 关键思路
    通过优化patch embedding,使用多个可变大小的patch kernel,消除了对于图像resize的需求。
  • 其它亮点
    论文提出的Multi-Scale Patch Embedding (MSPE)方法在图像分类、分割和检测任务中表现出色,特别是在低分辨率输入上表现优异。
  • 相关研究
    最近相关研究包括ViT模型的改进和适应性,以及图像resize的影响等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论