MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

简介

本文介绍了MoMA：一种开放词汇、无需训练的个性化图像模型，具有灵活的零样本能力。随着基础文本到图像模型的快速发展，对强大的图像到图像转换的需求也在增长。为了满足这一需求，MoMA专注于主题驱动的个性化图像生成。利用开源的多模态大语言模型（MLLM），我们训练MoMA扮演特征提取器和生成器的双重角色。这种方法有效地将参考图像和文本提示信息协同作用，产生有价值的图像特征，促进图像扩散模型。为了更好地利用生成的特征，我们还引入了一种新颖的自注意快捷方法，将图像特征高效地转移到图像扩散模型中，提高了生成图像中目标对象的相似度。值得注意的是，作为一个无需调整的即插即用模块，我们的模型仅需要一个参考图像，就能在生成具有高细节保真度、增强身份保留和提示忠实度的图像方面胜过现有方法。我们的工作是开源的，因此为这些进步提供了普遍的访问。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种开放词汇、无需训练的个性化图像模型，以及解决图像生成中的零样本问题。
关键思路

本文提出了一种基于开源多模态大语言模型（MLLM）的个性化图像生成方法，既可以作为特征提取器，也可以作为生成器。该方法利用参考图像和文本提示信息，产生有价值的图像特征，并通过自注意力快捷方式有效地将图像特征传输到图像扩散模型中，从而提高生成图像中目标对象的相似度。
其它亮点

本文提出的模型只需要一张参考图像，就能生成高保真度、保留身份特征和忠实于提示信息的图像。该模型的开源代码也为后续研究提供了便利。
相关研究

近期在图像生成领域，还有一些相关研究，例如《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》等。

MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

提问交流

提问交流