- 简介本文介绍了MoMA:一种开放词汇、无需训练的个性化图像模型,具有灵活的零样本能力。随着基础文本到图像模型的快速发展,对强大的图像到图像转换的需求也在增长。为了满足这一需求,MoMA专注于主题驱动的个性化图像生成。利用开源的多模态大语言模型(MLLM),我们训练MoMA扮演特征提取器和生成器的双重角色。这种方法有效地将参考图像和文本提示信息协同作用,产生有价值的图像特征,促进图像扩散模型。为了更好地利用生成的特征,我们还引入了一种新颖的自注意快捷方法,将图像特征高效地转移到图像扩散模型中,提高了生成图像中目标对象的相似度。值得注意的是,作为一个无需调整的即插即用模块,我们的模型仅需要一个参考图像,就能在生成具有高细节保真度、增强身份保留和提示忠实度的图像方面胜过现有方法。我们的工作是开源的,因此为这些进步提供了普遍的访问。
-
- 图表
- 解决问题本文旨在提出一种开放词汇、无需训练的个性化图像模型,以及解决图像生成中的零样本问题。
- 关键思路本文提出了一种基于开源多模态大语言模型(MLLM)的个性化图像生成方法,既可以作为特征提取器,也可以作为生成器。该方法利用参考图像和文本提示信息,产生有价值的图像特征,并通过自注意力快捷方式有效地将图像特征传输到图像扩散模型中,从而提高生成图像中目标对象的相似度。
- 其它亮点本文提出的模型只需要一张参考图像,就能生成高保真度、保留身份特征和忠实于提示信息的图像。该模型的开源代码也为后续研究提供了便利。
- 近期在图像生成领域,还有一些相关研究,例如《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流