A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models

简介

图像编辑旨在编辑给定的合成或真实图像，以满足用户的特定要求。它作为一种有前途和具有挑战性的人工智能生成内容（AIGC）领域，在近年来得到广泛研究。该领域最近的重大进展基于文本到图像（T2I）扩散模型的发展，这些模型根据文本提示生成图像。这些模型展示了出色的生成能力，并已成为图像编辑的广泛使用工具。基于T2I的图像编辑方法显著提高了编辑性能，并提供了一个用户友好的界面，以便根据多模态输入来修改内容。在本次调查中，我们提供了一份综合评估多模态引导的图像编辑技术的综述，这些技术利用了T2I扩散模型。首先，我们从整体的角度定义了图像编辑的范围，并详细介绍了各种控制信号和编辑场景。然后，我们提出了一个统一的框架来规范编辑过程，将其归类为两个主要的算法家族。该框架为用户提供了一个设计空间，以实现特定的目标。随后，我们对框架内的每个组件进行了深入分析，考察了不同组合的特征和适用场景。鉴于基于训练的方法学习直接将源图像映射到目标图像，我们单独讨论它们，并介绍了在不同场景下源图像的注入方案。此外，我们回顾了将二维技术应用于视频编辑的情况，重点介绍了解决帧间不一致性的解决方案。最后，我们讨论了该领域面临的开放性挑战，并提出了潜在的未来研究方向。我们会在 https://github.com/xinchengshuai/Awesome-Image-Editing 上持续追踪相关工作。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

本论文旨在介绍基于文本到图像扩散模型的多模态引导图像编辑技术，以提高编辑性能并为用户提供友好的界面。

关键思路

该论文提出了一个统一的框架来规范编辑过程，将其分为两个主要算法家族，并深入分析了每个组件的特性和适用场景。

其它亮点

论文介绍了使用注入方案的源图像的训练方法，并回顾了将2D技术应用于视频编辑的解决方案，同时强调了在领域中的开放挑战和未来的研究方向。

A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models

提问交流

提问交流