- 简介扩散模型显著提高了图像编辑的性能。现有方法实现了各种方法来实现高质量的图像编辑,包括但不限于文本控制、拖动操作和掩模和修补。其中,基于指令的编辑以其在不同场景下遵循人类指令的便利性和效果而脱颖而出。然而,它仍然专注于简单的编辑操作,如添加、替换或删除,并且缺乏理解传达物理世界中逼真动态特性的世界动态方面。因此,本文介绍了一个新的编辑任务,即世界指导的图像编辑,它定义和分类了由各种世界场景所基础的指令。我们使用一组大型预训练模型(例如GPT-3.5、Video-LLava和SDXL)策划了一个新的图像编辑数据集,其中包含有世界指令。为了使图像编辑能够充分模拟世界动态,我们的EditWorld在策划好的数据集中训练模型,并通过设计后编辑策略来提高指令遵循能力。广泛的实验表明,我们的方法在这项新任务中显著优于现有的编辑方法。我们的数据集和代码将在https://github.com/YangLing0818/EditWorld 上提供。
- 图表
- 解决问题本论文提出了一种新的图像编辑任务,即基于世界指令的图像编辑,旨在解决现有编辑方法无法理解传达物理世界真实动态特征的问题。
- 关键思路论文通过使用大型预训练模型(如GPT-3.5、Video-LLava和SDXL)构建一个新的图像编辑数据集,提出了一种基于世界指令的编辑方法,以实现更高质量的图像编辑。
- 其它亮点论文的亮点包括:通过使用大型预训练模型构建新的数据集,提出了一种基于世界指令的编辑方法;通过设计后编辑策略,提高了模型的指令跟踪能力;实验结果表明,该方法在新任务上显著优于现有的编辑方法。论文提供了数据集和代码。
- 在这个领域中,最近的相关研究包括基于注意力机制的图像编辑方法(Attentional Generative Adversarial Network for Image Editing)、基于深度学习的图像修复方法(Deep Learning for Image Inpainting)等。
沙发等你来抢
去评论
评论
沙发等你来抢