- 简介本文探讨了仅有文本指导下图像中物体添加的重要问题。这是具有挑战性的,因为新物体必须与图像无缝集成,并具有一致的视觉背景,如照明、纹理和空间位置。虽然现有的文本引导图像修复方法可以添加物体,但它们要么无法保持背景的一致性,要么需要繁琐的人工干预来指定边界框或用户手绘蒙版。为了解决这个挑战,我们引入了Diffree,一种文本到图像(T2I)模型,可通过仅使用文本控制来促进文本引导的物体添加。为此,我们使用先进的图像修复技术从中删除物体,创建了一个精美的合成数据集OABench。OABench包括74K个原始图像元组,一个去除了物体的修复图像,一个物体蒙版和物体描述。使用稳定扩散模型和额外的蒙版预测模块在OABench上进行训练,Diffree可以唯一地预测新物体的位置,并在仅使用文本指导的情况下实现物体添加。广泛的实验表明,Diffree在保持背景一致性、空间适当性、物体相关性和质量的同时,具有高成功率添加新物体的优势。
- 图表
- 解决问题本文旨在解决只有文本指导的图像对象添加问题。这是一个具有挑战性的问题,因为新对象必须与图像无缝集成,具有一致的视觉背景,如照明,纹理和空间位置。
- 关键思路为了解决这个问题,本文介绍了Diffree,一种文本到图像(T2I)模型,仅使用文本控制即可实现文本引导的对象添加。通过使用稳定的扩散模型和额外的掩模预测模块在OABench数据集上进行训练,Diffree可以唯一地预测新对象的位置,并在仅依靠文本引导的情况下实现对象添加。
- 其它亮点本文提出了一种用于对象添加的新模型Diffree,并提出了一个精美的合成数据集OABench。实验结果表明,Diffree在添加新对象时具有高成功率,同时保持背景一致性,空间适当性和对象相关性和质量。
- 最近的相关研究包括使用图像修复方法进行文本引导的图像修复,以及使用深度学习模型进行文本到图像生成。
沙发等你来抢
去评论
评论
沙发等你来抢