R.A.C.E.: Robust Adversarial Concept Erasure for Secure Text-to-Image Diffusion Model

2024年05月25日
  • 简介
    在文本生成图像(T2I)扩散模型不断发展的背景下,生成高质量图像的显著能力面临着潜在的滥用敏感内容的挑战。为了解决这个关键问题,我们介绍了Robust Adversarial Concept Erase(RACE),这是一种新颖的方法,旨在通过增强T2I模型的概念抹除方法的鲁棒性来减轻这些风险。RACE利用复杂的对抗训练框架来识别和减轻对抗性文本嵌入,显著降低攻击成功率(ASR)。令人印象深刻的是,RACE在对抗领先的白盒攻击方法的“裸体”概念方面,将ASR降低了30个百分点。我们广泛的评估表明,RACE在防御白盒和黑盒攻击方面的有效性,标志着保护T2I扩散模型免受生成不当或误导性图像的重大进展。这项工作强调了在适应迅速发展的对抗性挑战领域中采取积极的防御措施的重要性。
  • 图表
  • 解决问题
    本论文旨在解决文本到图像(T2I)模型中潜在的敏感内容滥用问题,提出了一种新的方法来增强T2I模型中的概念擦除方法的鲁棒性。
  • 关键思路
    该方法使用对抗训练框架来识别和减轻对抗文本嵌入,从而显著降低攻击成功率(ASR)
  • 其它亮点
    该方法在防御白盒和黑盒攻击方面都表现出良好的效果,对于“裸露”概念的ASR降低了30个百分点。研究使用了广泛的评估和数据集,并提供了开源代码。
  • 相关研究
    最近的相关研究包括:“TextAdapt: Adapting Pretrained Representations to Diverse Tasks for Zero-Shot Learning”和“Controllable Text-to-Image Generation with User-Preference Targets”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论