Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

2025年01月23日
  • 简介
    链式思维(Chain-of-Thought, CoT)推理在大型模型中已被广泛探索,以应对复杂的理解任务。然而,这些策略是否可以应用于图像生成的验证和强化场景仍然是一个开放的问题。在本文中,我们首次全面研究了CoT推理在增强自回归图像生成方面的潜力。我们专注于三种技术:扩展测试时计算以进行验证、通过直接偏好优化(Direct Preference Optimization, DPO)对齐模型偏好,以及整合这些技术以实现互补效果。我们的结果表明,这些方法可以有效地适应和结合,从而显著提高图像生成的性能。此外,鉴于奖励模型在我们的研究中起到的关键作用,我们提出了专门用于自回归图像生成的潜在评估奖励模型(Potential Assessment Reward Model, PARM)和PARM++。PARM通过潜在评估方法自适应地评估每个生成步骤,融合了现有奖励模型的优点,而PARM++进一步引入了一种反思机制,以自我纠正生成的不满意图像。通过应用我们研究的推理策略,我们将一个基线模型Show-o进行了改进,取得了卓越的结果,在GenEval基准上实现了显著的24%的提升,超过了Stable Diffusion 3的15%。我们希望本研究能提供独特的见解,并为将CoT推理与自回归图像生成相结合开辟新的路径。代码和模型已发布在https://github.com/ZiyuGuo99/Image-Generation-CoT。
  • 图表
  • 解决问题
    该论文试图探索链式思维(CoT)推理在增强自回归图像生成中的应用潜力,特别是验证和强化图像生成场景。这是一个相对较新的问题,因为CoT推理主要被应用于复杂的理解任务,而其在图像生成领域的应用尚未得到充分研究。
  • 关键思路
    关键思路是通过三种技术来提升自回归图像生成的性能:1) 扩展测试时计算以进行验证;2) 使用直接偏好优化(DPO)对齐模型偏好;3) 整合这些技术以实现互补效应。此外,论文提出了Potential Assessment Reward Model (PARM)及其增强版PARM++,专门用于自回归图像生成,以适应性评估每个生成步骤并引入自我修正机制。这种方法结合了现有的奖励模型的优势,并引入了新颖的反射机制。
  • 其它亮点
    实验设计包括对Show-o基线模型的改进,在GenEval基准上实现了显著的+24%的提升,超越了Stable Diffusion 3的+15%。论文使用了多种数据集进行验证,并且开源了代码和模型(https://github.com/ZiyuGuo99/Image-Generation-CoT)。未来的研究可以进一步探讨如何优化PARM++的反射机制,以及在更多类型的数据集上的表现。
  • 相关研究
    最近在这个领域中,相关研究包括《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》、《Direct Preference Optimization: A New Approach to Alignment》和《Autoregressive Image Generation with Transformers》等。这些研究分别探讨了CoT推理在语言模型中的应用、直接偏好优化的新方法以及自回归图像生成的Transformer架构。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论