- 简介本文介绍了一种新颖高效的技术MultiBooth,用于从文本生成图像时的多概念定制。尽管个性化生成方法已有显著进展,特别是扩散模型的成功,但现有方法在多概念场景下往往因概念保真度低和推理成本高而难以应对。MultiBooth通过将多概念生成过程分为两个阶段来解决这些问题:单概念学习阶段和多概念集成阶段。在单概念学习阶段,我们采用多模态图像编码器和有效的概念编码技术来学习每个概念的简洁和有区别的表示。在多概念集成阶段,我们使用边界框来定义交叉注意力图中每个概念的生成区域。这种方法使得在指定区域内创建各个概念成为可能,从而促进了多概念图像的形成。这种策略不仅提高了概念保真度,还降低了额外的推理成本。MultiBooth在定性和定量评估中均超过了各种基线,展示了其优越的性能和计算效率。项目页面:https://multibooth.github.io/。
- 图表
- 解决问题论文旨在解决多概念图像生成中概念保真度低和推理成本高的问题。
- 关键思路MultiBooth将多概念生成过程分为单概念学习和多概念集成两个阶段。单概念学习阶段采用多模态图像编码器和高效的概念编码技术,为每个概念学习简洁且具有区分度的表示。在多概念集成阶段,使用边界框在交叉注意力图中定义每个概念的生成区域,从而促进多概念图像的形成。
- 其它亮点论文通过定量和定性实验展示了MultiBooth的优越性能和计算效率。论文提供了项目页面和开源代码。值得进一步研究的是如何将MultiBooth应用于其他任务和领域。
- 最近的相关研究包括:Diffusion Models for Text-to-Image Generation, Generative Adversarial Networks for Multi-Concept Image-to-Image Translation, Learning to Discover Cross-Domain Relations with Generative Adversarial Networks。
沙发等你来抢
去评论
评论
沙发等你来抢