AttnDreamBooth: Towards Text-Aligned Personalized Text-to-Image Generation

2024年06月07日
  • 简介
    最近文本到图像模型的进展,使得用户提供的概念能够进行高质量的个性化图像合成,并具有灵活的文本控制。在这项工作中,我们分析了文本到图像个性化中两种主要技术的局限性:文本反演和DreamBooth。在将学习到的概念整合到新提示中时,文本反演往往会过度拟合概念,而DreamBooth则经常忽略它。我们将这些问题归因于概念嵌入对齐的学习不正确。我们引入了AttnDreamBooth这一新方法,通过在不同的训练阶段分别学习嵌入对齐、注意力图和主体身份,来解决这些问题。我们还引入了交叉注意力图正则化项,以增强注意力图的学习。与基线方法相比,我们的方法在身份保护和文本对齐方面表现出了显著的改进。
  • 图表
  • 解决问题
    本文针对文本到图像个性化合成中的两种主要技术(Textual Inversion和DreamBooth)存在的问题进行分析,提出了AttnDreamBooth方法来解决这些问题。
  • 关键思路
    AttnDreamBooth方法通过分别在不同的训练阶段中学习嵌入对齐、注意力图和主体身份,以及引入交叉注意力图正则化项来提高注意力图的学习,从而解决了现有方法中对概念的过拟合或忽略的问题。
  • 其它亮点
    本文提出的AttnDreamBooth方法在身份保护和文本对齐方面相比基线方法有了显著的改进。实验使用了几个数据集,并且开源了代码。值得进一步研究的是如何在更广泛的应用场景中使用该方法。
  • 相关研究
    最近的相关研究包括《Generative Adversarial Text-to-Image Synthesis: A Survey》和《Semantics-Enhanced Adversarial Nets for Text-to-Image Synthesis》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论