Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models

2024年07月17日
  • 简介
    文本到图像模型面临安全问题,包括与版权和不适宜工作场合(NSFW)相关的担忧。尽管已经提出了几种方法来从扩散模型中删除不适当的概念,但它们经常显示不完全删除,消耗大量计算资源,并无意中损害生成能力。在这项工作中,我们介绍了可靠高效的概念删除(RECE)方法,这是一种新颖的方法,可以在3秒钟内修改模型,而不需要额外的微调。具体而言,RECE有效地利用闭式解来导出新的目标嵌入,这些嵌入能够在未学习的模型中重新生成已删除的概念。为了减轻可能由导出嵌入表示的不适当内容,RECE还在交叉注意力层中将它们与无害的概念对齐。新表示嵌入的推导和删除是迭代进行的,以实现对不适当概念的彻底删除。此外,为了保留模型的生成能力,RECE在推导过程中引入了额外的正则化项,从而最小化删除过程中对不相关概念的影响。上述所有过程都是闭合形式的,保证仅需3秒钟即可实现极其高效的删除。与以前的方法进行基准测试,我们的方法实现了更高效和彻底的删除,对原始生成能力的损害较小,并展示了对红组工具的增强鲁棒性。代码可在\url{https://github.com/CharlesGong12/RECE}上找到。
  • 图表
  • 解决问题
    解决问题:本文旨在解决文本到图像模型中存在的版权和不适宜内容的安全问题,提出一种可靠高效的概念消除方法。
  • 关键思路
    关键思路:本文提出了一种名为RECE的方法,使用闭式解法推导新的目标嵌入,以消除不适宜的概念,同时通过交叉注意力层将其与无害概念对齐。这个过程是迭代的,同时还引入了额外的正则化项来保护模型的生成能力。
  • 其它亮点
    其他亮点:本文的方法能够在3秒内高效地消除不适宜的概念,并具有较高的鲁棒性。实验结果表明,该方法比之前的方法具有更高的消除效率和更少的损伤原始生成能力。此外,该方法已经开源。
  • 相关研究
    相关研究:最近的相关研究包括使用语言模型预测图像的方法和使用生成式对抗网络的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论