Fast Personalized Text-to-Image Syntheses With Attention Injection

简介

目前，个性化图像生成方法大多需要相当长的时间进行微调，而且往往会过度拟合概念，导致生成的图像类似于自定义概念，但难以通过提示进行编辑。我们提出了一种有效且快速的方法，可以平衡生成图像和参考图像的文本-图像一致性和身份一致性。我们的方法可以在不进行任何微调的情况下生成个性化图像，同时保持扩散模型固有的文本到图像生成能力。给定提示和参考图像，我们通过操作原始扩散模型的交叉注意力和自注意力层将自定义概念合并到生成的图像中，以生成与文本描述相匹配的个性化图像。全面的实验突出了我们方法的优越性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种快速有效的方法，以平衡生成图像的文本-图像一致性和身份一致性，从而生成个性化图像，而无需任何微调。
关键思路

通过操纵原始扩散模型的交叉注意力和自我注意力层，将自定义概念合并到生成的图像中，以生成符合文本描述的个性化图像。
其它亮点

论文提出的方法可以快速生成个性化图像，并保持扩散模型固有的文本到图像生成能力，而不需要任何微调。实验结果表明，该方法具有优越性。
相关研究

最近的相关研究包括：《Generative Adversarial Networks (GANs)》、《Variational Autoencoders (VAEs)》、《Flow-based Models》等。

Fast Personalized Text-to-Image Syntheses With Attention Injection

提问交流

提问交流