An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels

2024年06月13日
  • 简介
    这项工作并没有介绍一种新的方法。相反,我们呈现了一个有趣的发现,质疑了归纳偏置——即现代计算机视觉架构中的局部性的必要性。具体而言,我们发现,普通的Transformer可以通过直接将每个单独的像素视为一个标记来运行,并取得高性能的结果。这与Vision Transformer中的流行设计有很大不同,后者保持了从ConvNets到局部邻域的归纳偏置(例如,将每个16x16的补丁视为一个标记)。我们主要展示了像素作为标记在计算机视觉中三个经过深入研究的任务中的有效性:用于目标分类的监督学习、通过掩码自编码进行的自监督学习以及使用扩散模型进行的图像生成。虽然直接操作单个像素在计算上不太实用,但我们认为,在设计下一代计算机视觉神经架构时,社区必须意识到这一令人惊讶的知识。
  • 图表
  • 解决问题
    探讨计算机视觉中现代架构的归纳偏差-局部性是否必要的问题。
  • 关键思路
    使用Transformer将每个像素点作为一个标记,直接进行计算,不需要局部性的归纳偏差。
  • 其它亮点
    论文展示了像素作为标记的有效性,并在三个计算机视觉任务中进行了验证,包括有监督的目标分类、自监督的掩码自编码和扩散模型的图像生成。
  • 相关研究
    最近的相关研究包括Vision Transformer和ConvNets等计算机视觉架构的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论