Phased Consistency Model

2024年05月28日
  • 简介
    本文介绍了一种新的相位一致性模型(PCM),可以有效地生成高分辨率、文本条件下的图像生成。相比于之前的一致性模型(CM)和潜空间文本条件下的图像生成(LCM),PCM在设计空间的推广和解决了LCM中存在的三个问题。实验结果表明,在1-16步的生成设置中,PCM的性能显著优于LCM。虽然PCM是专门为多步细化而设计的,但它在一步生成方面的表现也优于之前的一步方法。此外,PCM的方法也适用于视频生成,可以训练出最先进的几步文本到视频生成器。更多详细信息请参见https://g-u-n.github.io/projects/pcm/。
  • 图表
  • 解决问题
    论文旨在解决高分辨率、文本条件下的图像生成问题中,目前一致性模型(CM)的应用仍然不尽如人意的问题。作者提出了相位一致性模型(PCM)来解决这些问题。
  • 关键思路
    PCM模型通过泛化设计空间,解决了LCM模型中存在的三个关键缺陷,并在1-16步生成设置中显著优于LCM模型。PCM模型不仅专门为多步细化而设计,而且在单步生成方面也能达到先前最先进的专门设计的1步方法的优越或可比成果。
  • 其它亮点
    论文提出的PCM模型在实验中表现出色,并且具有很强的适用性,可以应用于视频生成。作者还提供了论文中使用的数据集和开源代码,这些都是值得关注的地方。值得进一步研究的工作包括PCM模型在其他任务中的应用以及对PCM模型进行进一步的优化。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:《High-Resolution Image Synthesis from Text Descriptions with Edge-Enhanced Attention》、《Generative Adversarial Text-to-Image Synthesis》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论