PaRa: Personalizing Text-to-Image Diffusion via Parameter Rank Reduction

简介

对于大规模预训练的文本到图像扩散模型的个性化，是具有挑战性的，因为它通常难以在其训练数据分布和目标分布之间做出适当的权衡，即在仅有少量目标图像的情况下学习新概念以实现个性化（与个性化目标对齐），同时保持文本可编辑性（与多样的文本提示对齐）。本文提出了PaRa，一种有效且高效的参数秩降方法，用于T2I模型个性化，通过明确控制扩散模型参数的秩来限制其初始的多样生成空间到一个小而平衡的目标空间。我们的设计的动机是，将T2I模型引向特定的艺术风格等新概念意味着一个较小的生成空间。为此，在微调期间通过降低模型参数的秩，我们可以有效地限制去噪采样轨迹朝向目标的空间。通过全面的实验，我们展示了PaRa在单/多主题生成以及单图像编辑方面相对于现有的微调方法具有很大的优势。值得注意的是，相较于主流的微调技术LoRA，PaRa实现了更好的参数效率（学习参数减少2倍）和更好的目标图像对齐。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决大规模预训练的文本到图像扩散模型的个性化问题，即在保持文本可编辑性的同时，通过少量目标图像学习新概念，以实现个性化（与个性化目标对齐）。
关键思路

本文提出了一种有效且高效的参数排名降低方法（PaRa）来个性化T2I模型，通过明确控制扩散模型参数的秩来限制其初始的多样性生成空间，使其进入一个小而平衡的目标空间。
其它亮点

本文的亮点包括：使用PaRa方法可以在单/多主题生成以及单图像编辑方面实现更好的参数效率和目标图像对齐；相比于现有的微调技术LoRA，PaRa具有更好的参数效率（2倍的可学习参数）和更好的目标图像对齐。
相关研究

近期在这个领域中的相关研究包括：《Generative Adversarial Text-to-Image Synthesis》、《StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks》等。

PaRa: Personalizing Text-to-Image Diffusion via Parameter Rank Reduction

提问交流

提问交流