Anywhere: A Multi-Agent Framework for Reliable and Diverse Foreground-Conditioned Image Inpainting

2024年04月29日
  • 简介
    最近图像修复领域的进展,特别是扩散建模,取得了令人鼓舞的成果。然而,当在基于前景对象完成图像的场景中进行测试时,当前旨在以端到端方式修复图像的方法面临“过度想象”、前景和背景之间的不一致以及多样性有限等挑战。为此,我们介绍了一个开创性的多代理框架Anywhere,旨在解决这些问题。Anywhere利用一个复杂的管道框架,包括各种代理,如视觉语言模型(VLM)、大型语言模型(LLM)和图像生成模型。该框架由三个主要组成部分组成:提示生成模块、图像生成模块和结果分析器。提示生成模块对输入的前景图像进行语义分析,利用VLM预测相关的语言描述和LLM推荐最佳的语言提示。在图像生成模块中,我们采用了一个文本引导的边缘到图像生成模型,根据前景图像和语言提示创建一个模板图像,并使用图像细化器将输入的前景和模板图像混合产生结果。结果分析器利用VLM评估图像内容的合理性、美学得分和前景-背景相关性,根据需要触发提示和图像重生成。广泛的实验表明,我们的Anywhere框架在前景条件下的图像修复方面表现出色,减轻了“过度想象”,解决了前景-背景不一致问题,增强了多样性。它成功地提高了前景条件下图像修复的可靠性和多样性。
  • 图表
  • 解决问题
    该论文旨在解决当前图像修复方法在前景对象完成方面遇到的问题,如“过度想象”、“前景与背景不一致”和“有限的多样性”。
  • 关键思路
    该论文提出了一种新的多智能体框架——Anywhere,通过使用各种代理(如VLM、LLM和图像生成模型)来解决这些问题。该框架由三个主要组件组成:提示生成模块、图像生成模块和结果分析器。其中,提示生成模块利用VLM和LLM对输入的前景图像进行语义分析,预测相关语言描述和推荐最佳语言提示;而图像生成模块则利用文本引导的Canny-to-image生成模型和图像细化器来生成模板图像,并将输入的前景图像与模板图像混合生成结果;最后,结果分析器使用VLM评估图像内容的合理性、美学得分和前景-背景相关性,并根据需要触发提示和图像再生。该框架在前景条件下的图像修复方面表现出色,成功提高了修复结果的可靠性和多样性。
  • 其它亮点
    论文设计了大量实验来验证Anywhere框架的有效性,并使用了多个数据集进行测试。此外,论文还开源了代码,为后续研究提供了便利。
  • 相关研究
    最近在这个领域中,也有其他相关的研究,如DeepFillv2、Contextual Residual Aggregation等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论