X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

2025年07月29日
  • 简介
    为了扩展“下一个词元预测”的范式以涵盖视觉内容,人们做出了许多努力,旨在为图像生成和理解提供一种统一的方法。然而,通过离散词元进行自回归建模生成图像的尝试,一直受到诸如视觉保真度低、输出失真以及在渲染复杂细节时无法遵循复杂指令等问题的困扰。这些问题很可能是由于自回归推理过程中误差的累积,或是在离散化过程中导致的信息损失所引起的。或许正因面临这一挑战,近期的研究趋势逐渐转向将图像生成与扩散目标、语言生成与自回归目标联合训练,而不再拘泥于统一建模的方法。在本研究中,我们证明了强化学习可以有效减轻这些生成过程中的伪影问题,并大幅提升离散自回归建模方法的生成质量,从而实现图像与语言生成的无缝整合。我们的框架包括一个语义图像分词器、一个用于语言和图像的统一自回归模型,以及一个用于图像生成的离线扩散解码器,统称为 X-Omni。使用一个 70 亿参数的语言模型,X-Omni 在图像生成任务中达到了最先进的性能,所生成的图像不仅具有高度审美质量,而且在遵循指令和渲染长文本方面表现出色。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决视觉内容生成中使用自回归离散token预测范式所带来的问题,如视觉保真度低、输出扭曲以及无法遵循复杂指令渲染细节。这属于一个持续存在的问题,即如何实现图像和语言的统一建模,同时保持高质量的生成能力。
  • 关键思路
    论文提出使用强化学习来减少离散自回归图像生成中的累积误差和信息损失,从而显著提升生成质量。这一思路不同于当前主流的扩散模型与自回归语言模型联合训练方法,重新探索了统一建模的可能性。
  • 其它亮点
    1. 提出X-Omni框架,包含语义图像分词器、统一自回归模型和离线索引扩散解码器 2. 在仅使用7B语言模型的情况下实现图像生成的SOTA性能 3. 生成图像具有高审美质量,并能准确遵循复杂指令和渲染长文本 4. 实验结果显示比现有扩散模型和自回归图像生成方法更优的表现 5. 强化学习被有效应用于离散token生成流程中,缓解了传统自回归方法的缺陷
  • 相关研究
    1. Diffusion Models for Image Generation: Progress and Challenges 2. Unified Vision-Language Modeling with Discrete Token Prediction 3. Autoregressive Image Generation with Transformers: A Survey 4. Improving Text-to-Image Synthesis via Reinforcement Learning 5. Recent Advances in Semantic Image Tokenization and Codebook Learning
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问