VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model

2024年06月03日
  • 简介
    本文的重点是解决图像外扩问题,即在给定图像中心内容的情况下,推断出周围的部分。虽然最近的研究取得了很好的性能,但缺乏通用性和可定制性限制了它们在更广泛场景中的实际应用。因此,本文提出了一种新的图像外扩框架,能够根据用户的需求定制结果。首先,我们利用一个多模态大语言模型(MLLM),自动提取和组织给定图像的遮蔽和未遮蔽部分的相应文本描述。因此,获得的文本提示被引入模型,使其具备自定义外扩结果的能力。此外,我们还精心设计了一种特殊的交叉注意力模块,即中心-总体-周围(CTS),进一步增强了图像特定空间区域与文本提示相应部分之间的交互作用。需要注意的是,与大多数现有方法不同,我们的方法非常资源高效,因为它只是在现成的稳定扩散(SD)模型上进行了轻微微调,而不是从头开始训练。最后,对三个常用数据集(即风景、建筑和WikiArt)的实验结果表明,我们的模型显著优于SoTA方法。此外,列举了多样化的外扩结果以展示其定制能力。
  • 图表
  • 解决问题
    本文旨在解决图像外扩问题,即如何根据图像中心内容推断出周围部分。尽管最近的研究取得了不错的成果,但缺乏多样性和定制化功能限制了它们在更广泛场景下的实际应用。
  • 关键思路
    本文提出了一种新的图像外扩框架,可以根据用户的需求自定义结果。首先,利用多模式大语言模型(MLLM)自动提取和组织给定图像的遮蔽和未遮蔽部分的相应文本描述。然后将获得的文本提示引入模型,赋予其自定义外扩结果的能力。此外,还设计了一种特殊的交叉注意力模块,即中心-总体-周围(CTS),进一步增强了图像特定空间区域与相应文本提示部分之间的交互。值得注意的是,与大多数现有方法不同,我们的方法非常节约资源,因为它只是在现成的稳定扩散(SD)模型上进行微调,而不是从头开始训练。
  • 其它亮点
    本文实验结果表明,我们的模型显著超越了现有方法,并展示了其定制能力。实验使用了三个常用数据集:Scenery、Building和WikiArt。此外,本文的工作还有一些值得关注的地方,如实验设计、开源代码等。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:Image Inpainting with Learnable Bidirectional Attention Maps (CVPR 2019)、Generative Image Inpainting with Contextual Attention (CVPR 2018)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论