UltraEdit: Instruction-based Fine-Grained Image Editing at Scale

2024年07月07日
  • 简介
    本文介绍了一个名为UltraEdit的大规模数据集,其中包含了约400万个基于指令的图像编辑样本。我们的主要思想是解决现有图像编辑数据集(如InstructPix2Pix和MagicBrush)的缺点,并提供一种系统化的方法来产生大规模且高质量的图像编辑样本。UltraEdit具有以下几个明显的优点:1)它利用大型语言模型(LLMs)的创造力以及人类评分者提供的上下文编辑示例,提供了更广泛的编辑指令范围;2)其数据来源基于真实图像,包括照片和艺术作品,与仅由文本到图像模型生成的数据集相比,提供了更大的多样性和减少的偏差;3)它还支持基于区域的编辑,通过高质量、自动生成的区域注释进行增强。我们的实验表明,基于UltraEdit训练的经典扩散式编辑基线在MagicBrush和Emu-Edit基准测试中取得了新的记录。我们的分析进一步证实了真实图像锚点和基于区域的编辑数据的重要作用。数据集、代码和模型可在https://ultra-editing.github.io找到。
  • 图表
  • 解决问题
    本论文旨在解决现有图像编辑数据集存在的缺陷,并提供一种系统化的方法来生成大规模且高质量的图像编辑样本。同时,论文试图验证使用真实图像作为数据源和支持基于区域编辑的数据对于图像编辑任务的重要性。
  • 关键思路
    论文提出了UltraEdit数据集,利用大型语言模型的创造力和人类评分者提供的上下文编辑示例,扩展了编辑指令的范围。同时,该数据集的数据源基于真实图像,包括照片和艺术作品,提供了更大的多样性和降低了偏差。此外,该数据集还支持基于区域的编辑,通过高质量的自动区域注释进行增强。
  • 其它亮点
    实验表明,使用UltraEdit数据集训练的基准扩散编辑模型在MagicBrush和Emu-Edit基准测试中创造了新的记录。研究进一步证实了真实图像锚点和基于区域的编辑数据的重要性。该数据集、代码和模型可以在https://ultra-editing.github.io找到。
  • 相关研究
    最近的相关研究包括InstructPix2Pix和MagicBrush等图像编辑数据集。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论