InstructRL4Pix: Training Diffusion for Image Editing by Reinforcement Learning

简介

指令式图像编辑在利用自然人类语言操纵图像视觉内容方面取得了巨大进展。然而，现有模型受数据集质量的限制，不能准确地定位具有复杂对象关系的图像中的编辑区域。本文提出了一种强化学习引导的图像编辑方法（InstructRL4Pix），通过训练扩散模型生成由目标对象的注意力图引导的图像。我们的方法通过计算注意力图之间的距离作为奖励函数来最大化奖励模型的输出，并使用近端策略优化（PPO）来微调扩散模型。我们在对象插入、删除、替换和转换方面评估了我们的模型。实验结果表明，InstructRL4Pix突破了传统数据集的限制，利用无监督学习来优化编辑目标，并根据自然人类命令实现准确的图像编辑。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决现有模型在处理具有复杂对象关系的图像时，由于数据集的限制而无法准确定位编辑区域的问题。
关键思路

本文提出了一种强化学习引导的图像编辑方法（InstructRL4Pix），通过使用目标对象的注意力地图来指导扩散模型生成图像，最大化奖励模型的输出来优化编辑目标。
其它亮点

本文在目标插入、删除、替换和转换方面进行了评估。实验结果表明，InstructRL4Pix突破了传统数据集的限制，并使用无监督学习来优化编辑目标，实现了基于自然人命令的准确图像编辑。
相关研究

在这个领域中，最近的相关研究包括：Conditional Image Editing with Controllable Mask and Guidance（2021）、Interactive Image Editing with Natural Language Feedback（2020）等。

InstructRL4Pix: Training Diffusion for Image Editing by Reinforcement Learning

提问交流

提问交流