MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation

2024年04月08日
  • 简介
    定制化文本生成图像旨在合成用户指定概念的实例,并在处理单个概念方面取得了前所未有的进展。然而,当扩展到多个定制概念时,现有方法在灵活性和保真度方面存在限制,仅适用于有限类型的模型组合,可能导致来自不同概念的特征混合。在本文中,我们介绍了多概念指导下的多概念定制方法,称为MC$^2$,以提高灵活性和保真度。MC$^2$通过推理时间优化解耦模型架构的要求,允许集成各种异构的单个概念定制模型。它自适应地调整视觉和文本标记之间的注意力权重,使图像区域集中于它们关联的单词,同时减少不相关单词的影响。广泛的实验表明,MC$^2$甚至超过了需要额外训练的以前方法,其输入提示和参考图像的一致性方面。此外,MC$^2$可以扩展到提高文本生成图像的组合能力,产生吸引人的结果。代码将在https://github.com/JIANGJiaXiu/MC-2上公开。
  • 图表
  • 解决问题
    本论文旨在解决多概念定制图像生成中的灵活性和保真度问题,通过提出MC^2方法来实现。现有方法只能结合有限类型的模型,且可能导致来自不同概念的特征混合。
  • 关键思路
    MC^2通过推理时间优化来解耦模型架构要求,从而允许集成各种异构的单概念定制模型。它自适应地调整视觉和文本令牌之间的注意力权重,使图像区域集中于其关联的单词,减小不相关单词的影响。
  • 其它亮点
    论文通过广泛的实验表明,MC^2甚至超过需要额外训练的先前方法,具有与输入提示和参考图像一致性方面的优势。此外,MC^2可以扩展到提高文本到图像生成的组合能力,产生令人满意的结果。代码将公开在https://github.com/JIANGJiaXiu/MC-2上。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:Generative Adversarial Networks (GANs)、Variational Autoencoders (VAEs)、Text-to-Image Generation with Spatial and Channel-wise Attention Mechanisms等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论