- 简介本文提出了一种新的框架UPAM,旨在从攻击的角度研究T2I模型的鲁棒性,因为T2I模型可能会生成不当或有害图像,引发安全问题。与大多数现有的攻击方法专注于欺骗文本防御不同,UPAM旨在欺骗T2I模型中的文本和视觉防御。UPAM采用基于梯度的优化,比以前的方法更有效和更高效。鉴于T2I模型可能由于防御机制而无法返回结果,我们引入了Sphere-Probing Learning(SPL)方案,以支持梯度优化,即使没有返回结果也可以进行。此外,我们设计了一种Semantic-Enhancing Learning(SEL)方案,以微调UPAM以生成目标对齐的图像。我们的框架还确保攻击隐蔽性。广泛的实验表明了UPAM的有效性和效率。
-
- 图表
- 解决问题本论文旨在解决文本到图像(T2I)模型的安全性问题,即其可能生成不当或有害的图像。论文提出了UPAM框架,从攻击的角度来研究T2I模型的鲁棒性。
- 关键思路UPAM框架旨在欺骗T2I模型的文本和视觉防御机制,采用基于梯度的优化方法,同时引入Sphere-Probing Learning(SPL)和Semantic-Enhancing Learning(SEL)方案来支持梯度优化和生成目标对齐的图像,同时保证攻击的隐蔽性。
- 其它亮点论文的实验结果表明UPAM框架具有较高的效率和有效性。论文使用了多个数据集进行实验,并开源了代码。值得深入研究的工作包括如何进一步提高攻击的效率和成功率,以及如何应对T2I模型的防御机制。
- 最近的相关研究包括“TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP”和“Generating Natural Adversarial Examples”,等等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流