MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models

2024年04月15日
  • 简介
    大规模基于扩散的文本到图像(T2I)模型在文本到图像生成以及空间条件图像生成方面展示了令人印象深刻的生成能力。对于大多数应用,我们可以使用成对数据对模型进行端到端训练,以获得逼真的生成质量。然而,要添加额外的任务,通常需要使用所有模态的成对数据从头开始重新训练模型,以保持良好的生成性能。在本文中,我们解决了这个问题,并提出了一种新的策略,以最小的计算量扩展生成模型到新任务。在我们的实验中,我们发现扩散模型中间特征图的方差图捕捉了条件的强度。利用这个先验信息,我们提出了MaxFusion,一种有效的策略,以扩展文本到图像生成模型以适应新的模态条件。具体来说,我们结合了多个模型的对齐特征,从而产生了组合效应。我们的融合策略可以集成到现成的模型中,以增强它们的生成能力。
  • 作者讲解
  • 图表
  • 解决问题
    如何在不重复训练模型的情况下,将生成模型扩展到新的任务和条件下?
  • 关键思路
    利用扩散模型中间特征图的方差图来捕捉条件的强度,提出了一种名为MaxFusion的融合策略,通过组合多个模型的对齐特征来提高生成模型的生成能力。
  • 其它亮点
    论文在多个数据集上进行了实验,证明了MaxFusion策略可以有效地提高生成模型的生成能力,同时减少了计算成本。论文还提供了开源代码。
  • 相关研究
    相关研究包括:《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问