- 简介指令式图像编辑在利用自然人类语言操纵图像视觉内容方面取得了巨大进展。然而,现有模型受数据集质量的限制,不能准确地定位具有复杂对象关系的图像中的编辑区域。本文提出了一种强化学习引导的图像编辑方法(InstructRL4Pix),通过训练扩散模型生成由目标对象的注意力图引导的图像。我们的方法通过计算注意力图之间的距离作为奖励函数来最大化奖励模型的输出,并使用近端策略优化(PPO)来微调扩散模型。我们在对象插入、删除、替换和转换方面评估了我们的模型。实验结果表明,InstructRL4Pix突破了传统数据集的限制,利用无监督学习来优化编辑目标,并根据自然人类命令实现准确的图像编辑。
-
- 图表
- 解决问题本论文旨在解决现有模型在处理具有复杂对象关系的图像时,由于数据集的限制而无法准确定位编辑区域的问题。
- 关键思路本文提出了一种强化学习引导的图像编辑方法(InstructRL4Pix),通过使用目标对象的注意力地图来指导扩散模型生成图像,最大化奖励模型的输出来优化编辑目标。
- 其它亮点本文在目标插入、删除、替换和转换方面进行了评估。实验结果表明,InstructRL4Pix突破了传统数据集的限制,并使用无监督学习来优化编辑目标,实现了基于自然人命令的准确图像编辑。
- 在这个领域中,最近的相关研究包括:Conditional Image Editing with Controllable Mask and Guidance(2021)、Interactive Image Editing with Natural Language Feedback(2020)等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流