Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning

简介

因为扩散模型的规模扩大和视觉语言领域的进步，从文本生成图像变得更加容易。这些模型使用来自互联网的大量数据进行训练。因此，它们通常包含不良内容，例如受版权保护的材料。由于删除这些数据并重新训练模型具有挑战性，因此已经研究了从预训练模型中删除特定概念的方法。我们提出了一种新颖的概念擦除方法，该方法使用少量真实图像进行少量数据的未学习更新来更新文本编码器。在擦除概念后生成的图像的讨论一直缺乏。虽然有指定概念转换目标的方法，但指定概念的有效性尚不清楚。我们的方法通过转换到模型或图像中固有的潜在概念来隐含地实现这一点。我们的方法可以在10秒内擦除一个概念，使概念擦除比以往任何时候都更易于访问。隐式转换到相关概念会导致更自然的概念擦除。我们将所提出的方法应用于各种概念，并确认可以比当前方法快数十到数百倍地实现概念擦除。通过改变要更新的参数，我们获得了结果，表明像以前的研究一样，知识主要积累在文本编码器的前馈网络中。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决生成图像时存在版权等不良内容的问题，提出了一种概念消除的方法，使得预训练模型中的特定概念能够被快速消除。
关键思路

该论文提出了一种基于少量真实图像的概念消除方法，通过隐式地过渡到模型或图像中固有的相关概念，实现了更自然的概念消除。同时，该方法能够在10秒内消除一个概念，比现有方法快几十倍至几百倍。
其它亮点

论文使用了大量的数据集进行了实验，同时提供了开源代码。论文还探讨了参数更新的影响，结果表明，知识主要积累在文本编码器的前馈网络中。
相关研究

近期有关生成图像的研究包括：《Generative Adversarial Networks》、《PixelRNN》、《PixelCNN》等。

Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning

提问交流

提问交流