- 简介我们提出了视觉自回归建模(VAR),这是一种重新定义自回归学习的新一代范式,将图像的自回归学习重新定义为从粗到细的“下一尺度预测”或“下一分辨率预测”,与标准的栅格扫描“下一个令牌预测”不同。这种简单直观的方法使得自回归(AR)变压器可以快速学习视觉分布并具有良好的泛化能力:VAR首次使得AR模型在图像生成方面超越了扩散变压器。在ImageNet 256x256基准测试中,VAR通过将Frechet Inception Distance(FID)从18.65提高到1.80,将Inception Score(IS)从80.4提高到356.4,同时推断速度约快20倍,显著提高了AR基线。经验证,VAR在多个维度上包括图像质量、推断速度、数据效率和可扩展性方面优于扩散变压器(DiT)。将VAR模型扩展到更大规模时,展现了类似于LLMs中观察到的幂律缩放规律,相关系数接近于-0.998,是坚实的证据。VAR在下游任务中进一步展示了零样本泛化能力,包括图像修补、修剪和编辑。这些结果表明,VAR已经初步模拟了LLMs的两个重要特性:缩放规律和零样本任务泛化。我们已经发布了所有模型和代码,以促进对于视觉生成和统一学习中AR/VAR模型的探索。
- 图表
- 解决问题本文试图通过提出Visual AutoRegressive modeling (VAR)来解决图像自动生成中的问题,包括加速学习和提高泛化能力。这是一个新问题。
- 关键思路VAR采用粗到细的“下一尺度预测”或“下一分辨率预测”来重新定义图像的自回归学习,相比标准的栅格扫描“下一个标记预测”更快、更好地学习视觉分布。
- 其它亮点VAR在ImageNet 256x256基准测试中,将AR基线从18.65的FID提高到1.80,将80.4的IS提高到356.4,并具有约20倍的推理速度。VAR还在图像修复、外推和编辑等下游任务中展示了零-shot泛化能力。
- 最近的相关研究包括:Diffusion Transformer (DiT)。
沙发等你来抢
去评论
评论
沙发等你来抢