- 简介自回归模型在自然语言处理(NLP)领域取得了巨大成功。最近,自回归模型成为计算机视觉中的一个重要研究方向,它们在生成高质量视觉内容方面表现出色。在NLP中,自回归模型通常基于子词标记进行操作。然而,计算机视觉中的表示策略可以在不同层次上变化,即像素级、标记级或尺度级,这反映了视觉数据与语言的序列结构相比具有多样性和层次性。本文全面回顾了应用于视觉领域的自回归模型文献。为了提高来自不同研究背景的研究人员的可读性,我们从视觉中的初步序列表示和建模开始介绍。接下来,我们将视觉自回归模型的基本框架分为三个主要子类别,包括基于像素、基于标记和基于尺度的模型,这些分类依据不同的表示策略。然后,我们探讨了自回归模型与其他生成模型之间的联系。此外,我们从多个角度对计算机视觉中的自回归模型进行了分类,包括图像生成、视频生成、3D生成和多模态生成。我们还详细介绍了它们在各个领域的应用,包括新兴领域如具身AI和3D医学AI,并列出了约250篇相关参考文献。最后,我们指出了视觉自回归模型当前面临的挑战,并提出了潜在的研究方向建议。我们还建立了一个GitHub仓库来组织本综述中包含的论文,地址为:[https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey](https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey)。
- 图表
- 解决问题该论文旨在探讨和总结自回归模型在计算机视觉领域的应用,包括其基本框架、不同表示策略下的模型分类、与其他生成模型的关系及其在多个领域的应用。这是一个综合性的问题,旨在为研究人员提供一个全面的视角。
- 关键思路论文的关键思路是将自回归模型在计算机视觉中的应用分为像素级、token级和尺度级三个主要类别,并详细探讨了每个类别的特点和应用场景。此外,论文还探讨了自回归模型与其他生成模型之间的关系,以及它们在图像生成、视频生成、3D生成和多模态生成等领域的具体应用。
- 其它亮点论文对自回归模型在计算机视觉中的应用进行了全面的综述,涵盖了从基础理论到实际应用的各个方面。实验部分涉及多种数据集,如CIFAR-10、ImageNet等,并且提供了大量的参考文献。此外,作者还建立了一个GitHub仓库来组织相关论文,方便读者进一步研究。未来的研究方向包括提高模型效率、增强模型的泛化能力等。
- 近年来,关于自回归模型在计算机视觉中的应用研究非常活跃。例如,《PixelCNN++: Improving the PixelCNN with Discretized Logistic Mixture Likelihood and Other Modifications》探讨了改进的PixelCNN模型;《Transformer in Vision: A Survey》综述了Transformer在视觉任务中的应用;《3D Scene Generation via Hierarchical Autoregressive Models》则关注3D场景生成。
沙发等你来抢
去评论
评论
沙发等你来抢