Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

Mostafa Dehghani, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron, Andreas Steiner, Joan Puigcerver, Robert Geirhos, Ibrahim Alabdulmohsin, Avital Oliver, Piotr Padlewski, Alexey Gritsenko, Mario Lučić, Neil Houlsby
[Google DeepMind]

Patch n' Pack: NaViT,适用于任何比例和分辨率的视觉Transformer

  • 动机:传统的计算机视觉模型通常需要将图像调整为固定的分辨率进行处理,这种方法在某种程度上是次优的。然而,像Vision Transformer(ViT)这样的模型提供了灵活的序列建模,因此可以处理不同长度的输入序列。本文提出一种新的方法,NaViT(Native Resolution ViT),在训练过程中使用序列打包来处理任意分辨率和宽高比的输入。
  • 方法:NaViT的核心是一种称为"Patch n’ Pack"的方法,允许从不同图像中提取多个patch并将它们打包在一个序列中,从而实现可变分辨率并保持宽高比。这种方法受到了自然语言处理中例子打包的启发,其中多个例子打包成一个序列,以便在处理可变长度输入时提高训练效率。
  • 优势:NaViT在训练效率、模型适应性和推理灵活性方面具有显著优势。在固定的计算预算下,NaViT一致地超越了ViT。例如,使用四倍少的计算量,NaViT就能匹配顶级ViT的性能。此外,NaViT可以在训练和微调过程中处理多种分辨率的图像,从而在各种分辨率下都能表现出优秀的性能,在推理成本方面给NaViT带来了显著的优势。


NaViT是一种新的视觉Transformer,通过在训练过程中使用序列打包来处理任意分辨率和宽高比的输入,从而在训练效率、模型适应性和推理灵活性方面超越了传统的Vision Transformer。

https://arxiv.org/abs/2307.06304 


图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除