- 简介尽管文本到图像扩散模型取得了前所未有的成功,但是使用文本控制描述对象数量却出奇地困难。这对于各种应用非常重要,从技术文档、儿童读物到烹饪食谱的插图都需要控制对象数量。生成正确的对象计数在根本上是具有挑战性的,因为生成模型需要为每个对象实例保持独立的身份感,即使有几个对象看起来相同或重叠,然后在生成过程中隐含地进行全局计算。目前尚不清楚这样的表示是否存在。为了解决计数正确的生成问题,我们首先确定了扩散模型中可以携带对象身份信息的特征。然后在去噪过程中使用这些特征来分离和计算对象实例,并检测过度生成和欠生成。我们通过训练一个模型来修复欠生成,该模型基于现有对象的布局预测缺失对象的形状和位置,并展示了如何使用它来指导具有正确对象计数的去噪过程。我们的方法CountGen不依赖于外部资源来确定对象布局,而是使用扩散模型本身的先验,创建与提示和种子相关的布局。在两个基准数据集上评估,我们发现CountGen强烈超越了现有基线的计数准确性。
-
- 图表
- 解决问题本篇论文旨在解决文本生成图像时,控制所描绘对象数量的问题。如何在生成过程中保持每个对象的独立身份,并进行全局计算,以实现正确的对象计数,是一个具有挑战性的问题。
- 关键思路论文提出了一种名为CountGen的方法,通过识别承载对象身份信息的特征,并在去噪过程中分离和计数对象实例,以及检测过度生成和欠生成。通过训练一个模型来预测缺失对象的形状和位置,CountGen可以在不依赖外部数据源的情况下,使用扩散模型本身的先验知识来生成正确的对象计数。
- 其它亮点CountGen方法在两个基准数据集上进行评估,表现出比现有基线更强的计数精度。实验结果表明,CountGen方法具有很高的实用性和可扩展性。此外,该论文还提出了一种预测缺失对象的形状和位置的方法,这一方法可以用于指导去噪过程。
- 在相关研究方面,最近的一些研究包括:《Generative Modeling with Sparse Transformers》、《Image Generation from Layout》、《Generative Modeling with Point Process Distributions》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流