Make It Count: Text-to-Image Generation with an Accurate Number of Objects

向作者提问

NEW

简介

尽管文本到图像扩散模型取得了前所未有的成功，但是使用文本控制描述对象数量却出奇地困难。这对于各种应用非常重要，从技术文档、儿童读物到烹饪食谱的插图都需要控制对象数量。生成正确的对象计数在根本上是具有挑战性的，因为生成模型需要为每个对象实例保持独立的身份感，即使有几个对象看起来相同或重叠，然后在生成过程中隐含地进行全局计算。目前尚不清楚这样的表示是否存在。为了解决计数正确的生成问题，我们首先确定了扩散模型中可以携带对象身份信息的特征。然后在去噪过程中使用这些特征来分离和计算对象实例，并检测过度生成和欠生成。我们通过训练一个模型来修复欠生成，该模型基于现有对象的布局预测缺失对象的形状和位置，并展示了如何使用它来指导具有正确对象计数的去噪过程。我们的方法CountGen不依赖于外部资源来确定对象布局，而是使用扩散模型本身的先验，创建与提示和种子相关的布局。在两个基准数据集上评估，我们发现CountGen强烈超越了现有基线的计数准确性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本篇论文旨在解决文本生成图像时，控制所描绘对象数量的问题。如何在生成过程中保持每个对象的独立身份，并进行全局计算，以实现正确的对象计数，是一个具有挑战性的问题。
关键思路

论文提出了一种名为CountGen的方法，通过识别承载对象身份信息的特征，并在去噪过程中分离和计数对象实例，以及检测过度生成和欠生成。通过训练一个模型来预测缺失对象的形状和位置，CountGen可以在不依赖外部数据源的情况下，使用扩散模型本身的先验知识来生成正确的对象计数。
其它亮点

CountGen方法在两个基准数据集上进行评估，表现出比现有基线更强的计数精度。实验结果表明，CountGen方法具有很高的实用性和可扩展性。此外，该论文还提出了一种预测缺失对象的形状和位置的方法，这一方法可以用于指导去噪过程。
相关研究

在相关研究方面，最近的一些研究包括：《Generative Modeling with Sparse Transformers》、《Image Generation from Layout》、《Generative Modeling with Point Process Distributions》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问