UPAM: Unified Prompt Attack in Text-to-Image Generation Models Against Both Textual Filters and Visual Checkers

2024年05月18日
  • 简介
    本文提出了一种新的框架UPAM,旨在从攻击的角度研究T2I模型的鲁棒性,因为T2I模型可能会生成不当或有害图像,引发安全问题。与大多数现有的攻击方法专注于欺骗文本防御不同,UPAM旨在欺骗T2I模型中的文本和视觉防御。UPAM采用基于梯度的优化,比以前的方法更有效和更高效。鉴于T2I模型可能由于防御机制而无法返回结果,我们引入了Sphere-Probing Learning(SPL)方案,以支持梯度优化,即使没有返回结果也可以进行。此外,我们设计了一种Semantic-Enhancing Learning(SEL)方案,以微调UPAM以生成目标对齐的图像。我们的框架还确保攻击隐蔽性。广泛的实验表明了UPAM的有效性和效率。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决文本到图像(T2I)模型的安全性问题,即其可能生成不当或有害的图像。论文提出了UPAM框架,从攻击的角度来研究T2I模型的鲁棒性。
  • 关键思路
    UPAM框架旨在欺骗T2I模型的文本和视觉防御机制,采用基于梯度的优化方法,同时引入Sphere-Probing Learning(SPL)和Semantic-Enhancing Learning(SEL)方案来支持梯度优化和生成目标对齐的图像,同时保证攻击的隐蔽性。
  • 其它亮点
    论文的实验结果表明UPAM框架具有较高的效率和有效性。论文使用了多个数据集进行实验,并开源了代码。值得深入研究的工作包括如何进一步提高攻击的效率和成功率,以及如何应对T2I模型的防御机制。
  • 相关研究
    最近的相关研究包括“TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP”和“Generating Natural Adversarial Examples”,等等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问