MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration

简介

最近基于扩散模型的无需调参的个性化图像生成技术有了令人瞩目的进展。然而，为了提高主体的真实性，现有的方法要么重新训练扩散模型，要么注入密集的视觉嵌入，这两种方法都存在泛化性和效率上的问题。此外，由于缺乏约束的跨主体注意机制，这些方法在多主体图像生成方面表现不佳。本文提出了MM-Diff，这是一个统一的无需调参的图像个性化框架，能够在几秒钟内生成高保真度的单个或多个主体图像。具体来说，为了同时增强文本一致性和主体真实性，MM-Diff采用视觉编码器将输入图像转换为CLS和补丁嵌入。CLS嵌入一方面用于增强文本嵌入，另一方面与补丁嵌入一起用于推导出少量富含细节的主体嵌入，这两种嵌入都通过精心设计的多模态跨注意机制高效地集成到扩散模型中。此外，MM-Diff在训练阶段引入了跨注意力图约束，确保在推理过程中灵活地进行多主体图像采样，而不需要任何预定义的输入（例如布局）。广泛的实验证明了MM-Diff在性能上优于其他领先的方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文提出了一个新的框架MM-Diff，旨在解决现有个性化图像生成方法在单一和多个主题上的效率和泛化能力问题。
关键思路

MM-Diff框架采用视觉编码器将输入图像转换为CLS和补丁嵌入，同时利用多模态交叉注意机制将CLS嵌入用于增强文本一致性和主题保真度，并与补丁嵌入一起推导出一小部分细节丰富的主题嵌入，这些嵌入有效地整合到扩散模型中。
其它亮点

论文提出的MM-Diff框架在单一和多个主题上的图像生成效率和泛化能力方面表现出色，并引入了交叉注意图约束来确保灵活的多主题图像采样。
相关研究

最近的相关研究包括：《Diffusion Models Beat GANs on Image Synthesis》、《Generative Modeling with Sparse Transformers》等。

MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration

提问交流

提问交流