- 简介我们提出了个性化残差和局部注意力引导采样,以利用文本到图像扩散模型进行高效的概念驱动生成。我们的方法首先通过冻结预训练的文本条件扩散模型的权重,并学习一小部分模型层的低秩残差来表示概念。基于残差的方法直接实现了我们提出的采样技术,该技术仅在通过交叉注意力定位到概念的区域中应用学习到的残差,并在所有其他区域中应用原始扩散权重。因此,局部采样将概念的学习身份与底层扩散模型的现有生成先验相结合。我们展示了个性化残差在单个GPU上仅需约3分钟即可有效捕获概念的身份,而无需使用正则化图像,并且比先前的模型具有更少的参数,而局部采样允许在图像的大部分区域中使用原始模型作为强先验。
- 图表
- 解决问题本文针对文本到图像生成模型的效率问题,提出了个性化残差和局部注意力引导采样的解决方案。旨在提高生成模型的效率和生成质量。
- 关键思路本文提出的解决方案包括两个关键思路:一是使用个性化残差来捕获概念的身份信息,二是使用局部注意力引导采样来提高生成效率。
- 其它亮点本文的亮点包括:使用个性化残差捕获概念身份信息的效果显著,仅需要3分钟就能在单个GPU上完成训练;局部注意力引导采样能够提高生成效率,同时保持图像的生成质量;实验结果表明,本文的方法在减少参数数量的同时,生成效率和质量都有所提高。
- 在相关研究方面,最近的一些研究包括《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢