OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

向作者提问

NEW

简介

指导式图像编辑方法通过在自动合成或手动标注的图像编辑对上训练扩散模型，展示了显著的潜力。然而，这些方法距离实际应用仍有很大差距。我们确定了导致这一差距的三个主要挑战。首先，现有模型由于有偏的合成过程而编辑能力有限。其次，这些方法使用包含大量噪声和伪影的数据集进行训练，这主要是因为采用了简单的过滤方法，如CLIP分数。第三，所有这些数据集都限制在一个单一的低分辨率和固定的宽高比，限制了处理现实世界用例的灵活性。在本文中，我们提出了一个全能编辑器——OmniEdit，它可以无缝处理七种不同的图像编辑任务，并支持任意宽高比。我们的贡献有四个方面：(1) OmniEdit利用来自七个不同专业模型的监督进行训练，以确保任务覆盖。(2) 我们根据大型多模态模型（如GPT-4o）提供的评分进行重要性采样，而不是使用CLIP分数，以提高数据质量。(3) 我们提出了一种新的编辑架构——EditNet，以大幅提高编辑成功率。(4) 我们提供不同宽高比的图像，确保我们的模型能够处理任何野外图像。我们整理了一个测试集，包含不同宽高比的图像，并附带多样化的指令以涵盖不同的任务。自动评估和人工评估均表明，OmniEdit在所有现有模型中表现显著优于其他模型。我们的代码、数据集和模型将在以下网址提供：[https://tiger-ai-lab.github.io/OmniEdit/](https://tiger-ai-lab.github.io/OmniEdit/)
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决现有图像编辑模型在实际应用中的局限性，包括编辑技能有限、训练数据质量低和处理不同分辨率及宽高比的能力不足等问题。
关键思路

论文提出了一种名为OmniEdit的全能图像编辑器，通过利用七种不同任务的专家模型监督训练、基于大型多模态模型的得分进行重要性采样以提高数据质量、提出新的编辑架构EditNet来提升编辑成功率，并提供不同宽高比的图像以增强模型的泛化能力。
其它亮点

1. OmniEdit能够无缝处理七种不同的图像编辑任务，并支持任意宽高比的图像。 2. 论文使用了改进的数据筛选方法，提高了训练数据的质量。 3. 提出了新的编辑网络架构EditNet，显著提升了编辑的成功率。 4. 论文提供了包含多种宽高比图像的测试集，并附带多样化的编辑指令。 5. 实验结果表明，OmniEdit在自动评估和人工评估中均显著优于现有模型。 6. 论文的代码、数据集和模型将在GitHub上公开发布，便于后续研究。
相关研究

近年来，图像编辑领域的一些相关研究包括： 1. "Guided Diffusion Models for Image Editing" - 探索了指导扩散模型在图像编辑中的应用。 2. "High-Resolution Image Synthesis with Latent Diffusion Models" - 研究了高分辨率图像合成的方法。 3. "CLIP-Guided Diffusion for Image Editing" - 利用CLIP模型指导扩散过程，改善图像编辑效果。 4. "Multimodal Pre-training for Image Editing" - 通过多模态预训练提高图像编辑模型的性能。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问