Espresso: Robust Concept Filtering in Text-to-Image Models

2024年04月30日
  • 简介
    Diffusion-based text-to-image (T2I)模型可以根据给定的文本提示生成高保真度的图像。它们是在从互联网上抓取的大型数据集上进行训练的,这些数据集可能包含不可接受的概念(例如侵犯版权或不安全的内容)。在过滤掉训练数据中的不可接受的概念后重新训练T2I模型效率低下且会降低效用。因此,需要一种概念去除技术(CRTs),它们能够有效地去除不可接受的概念,在可接受的概念上保持效用,并且对抗性提示具有鲁棒性。先前的过滤和微调CRTs都不能同时满足这些要求。 我们介绍了Espresso,这是第一个基于对比语言-图像预训练(CLIP)的鲁棒概念过滤器。它通过将生成的图像嵌入投影到连接不可接受和可接受概念的向量上来识别不可接受的概念,从而确保了鲁棒性,限制对手只能沿着这个向量的方向添加噪声,即可接受概念的方向。进一步微调Espresso以分离可接受和不可接受概念的嵌入,同时保持它们与图像嵌入的配对,可以确保其有效性和效用。我们对11个概念进行了评估,结果表明Espresso是有效的(不可接受概念的CLIP准确度约为5%),保持效用(可接受概念的标准化CLIP分数约为93%),并且具有鲁棒性(针对不可接受概念的对抗性提示的CLIP准确度约为4%)。最后,我们提出了Espresso针对对抗性提示的认证鲁棒性的理论界限和实证分析。
  • 解决问题
    本论文旨在解决文本到图像模型中可能存在的不可接受概念的问题,提出了一种有效的概念过滤器。
  • 关键思路
    Espresso是一种基于对比语言-图像预训练(CLIP)的概念过滤器,通过将生成的图像嵌入投影到联合文本-图像嵌入空间中连接不可接受和可接受概念的向量上来识别不可接受的概念,并通过微调来分离可接受和不可接受概念的嵌入。
  • 其它亮点
    论文使用了大量的数据集来评估Espresso的有效性、实用性和鲁棒性,并提供了理论上的保证鲁棒性的边界。实验结果表明,Espresso在过滤不可接受的概念方面的准确性为5%,在保留可接受概念方面的CLIP分数为93%。此外,Espresso还具有对抗性的鲁棒性,对抗性提示下过滤不可接受概念的准确性为4%。
  • 相关研究
    最近的相关研究包括使用深度学习模型进行图像分类和文本生成。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论