MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

2024年04月17日
  • 简介
    我们介绍了一种新的架构,用于个性化文本到图像扩散模型,称为Mixture-of-Attention(MoA)。MoA受到大型语言模型(LLMs)中使用的Mixture-of-Experts机制的启发,它在两个注意力路径之间分配生成工作负载:个性化分支和非个性化先验分支。 MoA旨在通过固定先验分支中的注意力层来保留原始模型的先验知识,同时通过个性化分支最小干预生成过程,使其学习将主题嵌入先验分支生成的布局和上下文中。一种新颖的路由机制管理每个层中像素在这些分支之间的分配,以优化个性化和通用内容创建的混合。一旦训练完成,MoA可促进创建高质量的个性化图像,其中包含多个主题,其构图和交互与原始模型生成的多样性相同。至关重要的是,MoA增强了模型的现有能力和新的增强个性化干预之间的区别,从而提供了更加分离的主题-上下文控制,这是以前无法实现的。项目页面:https://snap-research.github.io/mixture-of-attention
  • 作者讲解·2
  • 图表
  • 解决问题
    本文旨在提出一种新的个性化文本到图像扩散模型架构,以解决当前模型在处理多主体图像时的不足。
  • 关键思路
    本文提出了一种基于注意力机制的混合模型,将生成任务分配给个性化分支和非个性化先验分支,通过新的路由机制优化像素的分配,从而实现个性化和通用内容创作的最佳平衡。
  • 其它亮点
    本文提出的模型在多主体图像生成任务中表现出色,同时也提高了模型的可解释性和控制性。实验采用了多个数据集,并提供了开源代码。
  • 相关研究
    最近相关研究包括:Generative Adversarial Networks (GANs)、Variational Autoencoders (VAEs)、Flow-based models等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问