MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

简介

我们介绍了一种新的架构，用于个性化文本到图像扩散模型，称为Mixture-of-Attention（MoA）。MoA受到大型语言模型（LLMs）中使用的Mixture-of-Experts机制的启发，它在两个注意力路径之间分配生成工作负载：个性化分支和非个性化先验分支。 MoA旨在通过固定先验分支中的注意力层来保留原始模型的先验知识，同时通过个性化分支最小干预生成过程，使其学习将主题嵌入先验分支生成的布局和上下文中。一种新颖的路由机制管理每个层中像素在这些分支之间的分配，以优化个性化和通用内容创建的混合。一旦训练完成，MoA可促进创建高质量的个性化图像，其中包含多个主题，其构图和交互与原始模型生成的多样性相同。至关重要的是，MoA增强了模型的现有能力和新的增强个性化干预之间的区别，从而提供了更加分离的主题-上下文控制，这是以前无法实现的。项目页面：https://snap-research.github.io/mixture-of-attention
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

本文旨在提出一种新的个性化文本到图像扩散模型架构，以解决当前模型在处理多主体图像时的不足。
关键思路

本文提出了一种基于注意力机制的混合模型，将生成任务分配给个性化分支和非个性化先验分支，通过新的路由机制优化像素的分配，从而实现个性化和通用内容创作的最佳平衡。
其它亮点

本文提出的模型在多主体图像生成任务中表现出色，同时也提高了模型的可解释性和控制性。实验采用了多个数据集，并提供了开源代码。
相关研究

最近相关研究包括：Generative Adversarial Networks (GANs)、Variational Autoencoders (VAEs)、Flow-based models等。

MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

提问交流

提问交流