- 简介这项研究介绍了HQ-Edit,一个包含约200,000个编辑的高质量基于指令的图像编辑数据集。与先前依赖于属性引导或人类反馈来构建数据集的方法不同,我们设计了一个可扩展的数据收集流程,利用先进的基础模型,即GPT-4V和DALL-E 3。为了确保其高质量,首先在线收集多样化的样本,然后扩展并使用它们创建高质量的双联图,其中包含输入和输出图像以及详细的文本提示,并通过后处理确保精确对齐。此外,我们提出了两个评估指标,即对齐度和连贯度,以定量评估使用GPT-4V的图像编辑对的质量。HQ-Edit的高分辨率图像富于细节,并配有全面的编辑提示,极大地增强了现有图像编辑模型的能力。例如,经过HQ-Edit微调的InstructPix2Pix可以达到最先进的图像编辑性能,甚至超过那些使用人类注释数据微调的模型。该项目页面为https://thefllood.github.io/HQEdit_web。
- 图表
- 解决问题本论文旨在提出一个高质量的基于指令的图像编辑数据集HQ-Edit,并验证其对于图像编辑模型的性能提升。这是一个新的问题。
- 关键思路该论文的关键思路是通过使用先进的基础模型,如GPT-4V和DALL-E 3,设计一个可扩展的数据收集流程,以创建高质量的HQ-Edit数据集。同时,提出了两种评估指标,Alignment和Coherence,用于定量评估图像编辑对的质量。
- 其它亮点该论文的亮点包括:提出了一个高质量的基于指令的图像编辑数据集HQ-Edit,可以显著提高现有图像编辑模型的性能;提出了两种评估指标,可以用于定量评估图像编辑对的质量;实验结果表明,使用HQ-Edit数据集进行微调的InstructPix2Pix可以获得最先进的图像编辑性能。该论文的代码和数据集都已经公开。
- 最近的相关研究包括:使用人类注释数据进行微调的图像编辑模型,如GAN、Pix2Pix和CycleGAN等。
沙发等你来抢
去评论
评论
沙发等你来抢