- 简介由于大规模预训练的文本到图像生成模型,定制化图像生成取得了令人瞩目的进展,旨在生成用户指定的概念。现有方法广泛关注单一概念定制化,但在涉及组合多个概念的复杂场景时仍面临挑战。这些方法经常需要使用少量图像进行重新训练/微调,导致耗时的训练过程,阻碍了它们的快速实施。此外,依赖多张图像来表示单一概念增加了定制化的难度。为此,我们提出了FreeCustom,一种新颖的无需微调的方法,基于参考概念生成多概念组合的定制化图像,每个概念只需输入一张图像。具体而言,我们引入了一种新的多参考自注意力(MRSA)机制和加权掩码策略,使生成的图像能够更好地访问和关注参考概念。此外,MRSA利用了我们的关键发现,即在提供具有上下文交互的图像时,输入概念更好地被保留。实验表明,我们的方法产生的图像与给定的概念一致,并且与输入文本更好地对齐。我们的方法在多概念组合和单一概念定制化方面优于或与其他基于训练的方法相当,但更简单。代码可在https://github.com/aim-uofa/FreeCustom找到。
- 图表
- 解决问题本文旨在解决多概念组合的定制图像生成问题,现有方法需要使用多张图像进行重新训练/微调,导致训练时间长且难以实现快速定制。
- 关键思路本文提出了一种无需微调的方法,仅使用每个概念的一张图像作为输入,基于参考概念生成多概念组合的定制图像。具体来说,引入了一种新的多参考自注意力机制和加权掩码策略,使生成的图像能够更好地访问和关注参考概念。
- 其它亮点本文提出的方法能够生成符合给定概念且与输入文本更加一致的图像。本文的方法在多概念组合和单概念定制方面表现优异,且更加简单。作者在实验中使用了多个数据集,并提供了开源代码。
- 最近的相关研究包括:1. BigGAN;2. AttnGAN;3. StackGAN++;4. DM-GAN;5. MirrorGAN。
沙发等你来抢
去评论
评论
沙发等你来抢