GeoDiffuser: Geometry-Based Image Editing with Diffusion Models

2024年04月22日
  • 简介
    图像生成模型的成功使我们能够构建可以基于文本或其他用户输入编辑图像的方法。然而,这些方法是定制的、不精确的、需要额外的信息或仅限于2D图像编辑。我们提出了GeoDiffuser,这是一种零样本基于优化的方法,将常见的2D和3D基于图像的对象编辑功能统一到一个方法中。我们的关键见解是将图像编辑操作视为几何变换。我们展示了这些变换可以直接并入扩散模型中的注意力层中,以隐式地执行编辑操作。我们的无需训练的优化方法使用一个目标函数,该函数旨在保持对象样式但生成合理的图像,例如具有准确的照明和阴影。它还可以修复图像中原本位于对象位置的不连续部分。给定自然图像和用户输入,我们使用SAM分割前景对象并估计相应的变换,该变换由我们的优化方法用于编辑。GeoDiffuser可以执行常见的2D和3D编辑,如对象平移、3D旋转和去除。我们提供了定量结果,包括感知研究,展示了我们的方法比现有方法更好。请访问https://ivl.cs.brown.edu/research/geodiffuser.html了解更多信息。
  • 图表
  • 解决问题
    GeoDiffuser试图解决图像编辑方法的局限性,例如需要额外信息、精度不够、只能进行2D编辑等问题。同时,该方法也试图验证将图像编辑操作视为几何变换的思路是否可行。
  • 关键思路
    GeoDiffuser的关键思路是将图像编辑操作视为几何变换,并将这些变换直接融入扩散模型的注意力层中进行编辑操作。该方法无需训练,使用目标函数来保留对象风格并生成逼真的图像,并填充原始图像中对象未被遮挡的部分。
  • 其它亮点
    GeoDiffuser可以进行常见的2D和3D编辑操作,例如对象平移、3D旋转和删除。论文进行了定量实验,包括感知研究,并证明了该方法优于现有方法。GeoDiffuser的代码已开源。
  • 相关研究
    最近的相关研究包括:Neural 3D Mesh Renderer、Glow和StyleGAN等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论