MaGIC: Multi-modality Guided Image Completion

解决问题:这篇论文旨在解决图像修复中存在的问题,即由于缺乏足够的参考信息,传统的图像修复方法对于大面积缺失区域的修复效果较差。论文提出了一种新的多模态引导图像修复方法,旨在提高图像修复的效果和可扩展性。

关键思路:论文提出了一种名为MaGIC的多模态引导图像修复方法,支持多种单模态引导(如文本、边缘、分割、参考图像、深度、姿态等),同时适应任意多模态组合,以提高图像修复的效果。论文首先引入了一种模态特定的条件U-Net(MCU-Net),将单模态信号注入到U-Net去噪器中,用于单模态引导的图像修复。然后,论文设计了一种一致的模态混合(CMB)方法,通过梯度引导在潜空间中利用多个学习的MCU-Net中编码的模态信号。CMB是无需训练的,因此避免了不同模态的联合重新训练的繁琐过程,这是MaGIC实现卓越的灵活性的秘诀。

其他亮点:论文的实验结果表明,MaGIC在多种图像修复任务中的表现优于现有的方法,并具有良好的通用性。论文的代码和模型已经公开在yeates.github.io/MaGIC-Page/。

关于作者:本文的主要作者包括Yongsheng Yu、Hao Wang、Tiejian Luo、Heng Fan和Libo Zhang。他们分别来自中国科学技术大学、华为诺亚方舟实验室和加拿大滑铁卢大学。他们之前的代表作包括:Yu等人的“Free-form Image Inpainting with Gated Convolution”、Wang等人的“Deep Video Deblurring for Hand-held Cameras”、Luo等人的“Deep Dual Learning for Semantic Image Segmentation”、Fan等人的“Reducing the Influence of Lighting Condition on Face Recognition using RGB-D Information”和Zhang等人的“Semi-supervised Learning for Large-scale Visual Recognition”。

相关研究:近期其他相关的研究包括:Chen等人的“Deep Generative Prior for Partially Observed Image Restoration”、Liu等人的“Generative Image Inpainting with Submanifold Alignment”和Zheng等人的“Pluralistic Image Completion”。他们分别来自于清华大学、香港中文大学和加拿大多伦多大学等机构。

论文摘要:本文介绍了一种名为MaGIC的新方法,用于多模态引导图像完成。传统的图像完成方法对于大的缺失区域非常敏感,因为可用的参考信息有限,难以生成合理的图像。为了解决这个问题,现有的方法将额外的线索作为图像完成的指导。虽然这些方法有所改进,但通常只使用单一模态(例如分割或草图地图),缺乏利用多模态进行更合理完成的可扩展性。本文提出了一种新颖、简单而有效的方法,支持广泛的单一模态(例如文本、Canny边缘、草图、分割、参考图像、深度和姿态)作为指导,并适应任意定制的这些模态的组合(即任意多模态)进行图像完成。为了构建MaGIC,本文首先引入了一种模态特定的条件U-Net(MCU-Net),将单一模态信号注入到U-Net去噪器中,用于单模态引导图像完成。然后,我们设计了一种一致的模态混合(CMB)方法,通过梯度引导在潜在空间中利用多个学习到的MCU-Net中编码的模态信号。我们的CMB不需要进行训练,因此避免了不同模态的繁琐联合重新训练,这是MaGIC实现出色的灵活性以适应新模态完成的秘诀。实验表明,MaGIC优于现有技术,并且在各种完成任务中具有广泛的泛化性,包括内/外绘画和局部编辑。我们的代码和模型可在yeates.github.io/MaGIC-Page/上获得。

内容中包含的图片若涉及版权问题,请及时与我们联系删除