论文地址:https://arxiv.org/pdf/2208.01618v1.pdf
开源代码:https://github.com/rinongal/textual_inversion
摘要
文本-图像模型为自然语言指导创作提供了前所未有的自由。然而,尚不清楚如何行使这种自由以生成特定独特概念,修改其外观或以新角色和新颖场景构成它们的图像。换句话说,我们问:我们如何使用语言指导模型,将猫变成一幅画,或者想象基于我们喜欢的玩具的新产品?在这里,我们提出了一种简单的方法,可以允许这种创造性自由。我们仅使用3-5个用户提供的概念(例如对象或样式)图像,学会通过在冷冻文本到图像模型的嵌入空间中通过新的“单词”表示它。这些“单词”可以组成自然语言句子,以直观的方式指导个性化的创作。值得注意的是,我们发现有证据表明单词嵌入足以捕获独特而多样的概念。我们将我们的方法比较了各种基线,并证明它可以更准确地描绘出一系列应用程序和任务的概念。
贡献
作者提出通过在预先训练的文本到图像模型的文本嵌入空间中找到新单词来克服这些挑战。作者考虑文本编码过程的第一阶段(图2)。在这里,首先将输入字符串转换为一组令牌。然后将每个令牌替换为其自身的嵌入向量,这些向量通过下游模型馈送。作者的目标是找到代表新的特定概念的新嵌入向量。
本文提出了带有新伪字的新嵌入向量,用S*表示。然后将此伪字视为其他任何单词,可用于为生成模型撰写新颖的文本查询。因此,人们可以要求“海滩上的S*照片”,“挂在墙上的S*油画”,甚至构成了两个概念,例如“ S2*的S1*绘画””。重要的是,此过程使生成模型未经触及。在此过程中,我们保留了在新任务上进行微调的愿景和语言模型时,通常会丢失丰富的文本理解和概括功能。
为了找到这些伪字,本文将任务作为反转之一。同时,本文提供了一个固定的,预先训练的文本模型和一个描绘概念的小图像集。作者的目的是找到一个单词嵌入,以便“ S ∗照片”的形式的句子将导致从小型集合中重建图像。通过优化过程可以找到这种嵌入,我们称之为“文本反演”。
作者进一步研究了一系列扩展,该扩展是基于通常用于生成对抗网络(GAN)反转的工具。分析表明,尽管仍然存在一些核心原则,但以原始的方式应用先前的艺术是没有帮助或有危害的。
本文在广泛的概念和提示中证明了方法的有效性,表明它可以将独特的对象注入新场景,跨不同样式,转移姿势,减少偏见,甚至想象新产品。
总而言之,本文的贡献如下:
- 介绍了个性化的文本到图像生成的任务,在该任务中,综合了以自然语言指导为指导的用户提供的概念的新颖场景。
- 在生成模型的背景下介绍了“文本反转”的想法。在这里,目标是在文本编码器的嵌入空间中找到新的伪字,可以捕获高级语义和精细的视觉细节。
- 根据GAN启发的反转技术分析了嵌入空间,并证明它在失真和编辑性之间也表现出折衷。作者表明他们的方法位于权衡曲线上的一个吸引力。
- 对使用该概念的用户提供的字幕生成的图像进行评估,并证明本文的嵌入提供了更高的视觉保真度,并启用了更强大的编辑。
方法
我们的目标是启用语言引导的新生成新的用户指定概念。为此,我们的目标是将这些概念编码为预训练的文本对图像模型的中间表示。理想情况下,这应该以一种使我们能够利用这种模型代表的丰富语义和视觉事先的方式来完成,并使用它来指导概念的直观视觉转换。
潜在传播模型 我们通过潜在扩散模型(LDMS)(Rombach等,2021)实施我们的方法,这是最近引入的一类Denoising扩散概率模型(DDPMS)(Ho等,2020),该模型(Ho等,2020)在AutoCododer的潜在空间中运行。
LDM由两个核心组件组成。首先,在大量图像中预先训练了自动编码器。一个编码器e学习将图像x∈Dx映射到空间潜在代码z = e(x),通过kl-divergence损失或通过向量量化进行正规化(van den oord等,2017; Agustsson et al,2017 )。解码器D学会将这些潜在的映射回图像,从而使D(ε(x))≈x。
第二个组件是扩散模型,经过训练,可以在学习的潜在空间内生成代码。该扩散模型可以在类标签,分割掩码,甚至是共同训练的文本装饰模型的输出上进行条件。令Cθ(y)为将条件输入y映射到条件矢量中的模型。然后,LDM损失由以下方式给出:
其中t是时间步长,\( z_t \)是时间t的潜在噪声,\( \epsilon \)是未量化的噪声样本,θ是denoising网络。直观地,这里的目的是正确删除添加到图像的潜在表示中的噪声。在训练期间,Cθ和θ共同优化以最大程度地减少LDM损失。在推理时,对随机噪声张量进行采样,并迭代地授予以产生潜在的新图像Z0。最后,该潜在代码通过预先训练的解码器X'= D(Z0)转换为图像。
我们采用Rombach等人的公开可用的14亿参数文本对图像模型(2021),在LAION-400M数据集(Schuhmann等,2021)中进行了预先培训。在这里,Cθ是通过Bert(Devlin等,2018)文本编码来实现的,Y是文本提示。
文本嵌入 典型的文本编码器模型,例如BERT,从文本处理步骤开始(图2,左)。首先,将输入字符串中的每个单词或子字转换为令牌,这是某些预定义词典中的索引。然后将每个令牌链接到一个唯一的嵌入向量,该向量可以通过基于索引的查找来检索。这些嵌入向量通常是作为文本编码器Cθ的一部分而学习的。
在我们的工作中,我们选择此嵌入空间作为反转的目标。具体而言,我们指定了一个占位符弦S ∗,以表示我们希望学习的新概念。我们干预嵌入过程,并用新的,学到的嵌入V ∗与与令牌化的字符串相关的向量,从本质上“将”概念“注入”我们的词汇。这样,我们就可以像其他任何单词一样撰写包含该概念的新句子。
文本反转 为了找到这些新的嵌入,我们使用一小部分图像(通常为3-5),该图像描绘了我们在多个设置(例如不同背景或姿势)中的目标概念。我们通过直接优化发现V ∗,通过最大程度地降低了从小型集中采样的图像的LDM丢失(1)。为了调节这一生成,我们随机采样中性上下文文本,这些文本是从夹成像类模板中得出的(Radford等,2021)。这些包含“ S ∗的照片”,“ S ∗的演绎”等形式的提示。模板的完整列表在补充材料中提供。
我们的优化目标可以定义为:
并通过与原始LDM模型相同的训练方案来实现,同时保持Cθ和θ固定。值得注意的是,这是一项重建任务。因此,我们希望它激励学到的嵌入以捕获该概念独有的精细视觉细节。
结果
我们的评估结果总结在图10(a)中。我们重点介绍了特别感兴趣的四个观察结果:首先,我们方法的语义重建质量和许多基线可以与简单地从训练集中采样随机图像相提并论。其次,单词方法可实现可比的重建质量,并且在所有多字基线中都有大大提高的编辑性。这些点概述了文本嵌入空间的令人印象深刻的灵活性,表明它可以在仅使用单个伪字的同时以高度准确性捕获新概念。
第三,我们观察到我们的基线概述了一种失真的编辑权衡曲线,其中嵌入更接近真实单词分布的嵌入(例如,由于正规化,较少的伪字或较低的学习率)可以更容易地修改,更容易地修改但是无法捕获目标的细节。相比之下,远离单词分布的偏差可以以严重降低的编辑功能为代价改进重建。值得注意的是,我们的单件模型可以通过简单地改变学习率,为用户提供对这种权衡的程度的控制,可以沿着这一曲线移动。
作为第四个观察,我们注意到,对概念的人类描述的使用不仅无法捕获其相似性,而且还会导致编辑性降低。我们假设这与Paiss等人中概述的选择性相似性息息相关(2022),视觉和语言模型倾向于集中在语义上有意义的代币的子集上。通过使用长字幕,我们增加了模型忽略所需设置的机会,仅关注对象描述本身。同时,我们的模型仅使用一个令牌,从而最大程度地减少了这种风险。
最后,我们注意到,尽管我们的重建得分与随机采样的真实图像相当,但应使用一粒盐来拍摄这些结果。我们的指标比较使用夹子的语义相似性,该夹子对形状保护不太敏感。在这方面,还有更多的工作要做。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢