UPAM: Unified Prompt Attack in Text-to-Image Generation Models Against Both Textual Filters and Visual Checkers

简介

本文提出了一种新的框架UPAM，旨在从攻击的角度研究T2I模型的鲁棒性，因为T2I模型可能会生成不当或有害图像，引发安全问题。与大多数现有的攻击方法专注于欺骗文本防御不同，UPAM旨在欺骗T2I模型中的文本和视觉防御。UPAM采用基于梯度的优化，比以前的方法更有效和更高效。鉴于T2I模型可能由于防御机制而无法返回结果，我们引入了Sphere-Probing Learning（SPL）方案，以支持梯度优化，即使没有返回结果也可以进行。此外，我们设计了一种Semantic-Enhancing Learning（SEL）方案，以微调UPAM以生成目标对齐的图像。我们的框架还确保攻击隐蔽性。广泛的实验表明了UPAM的有效性和效率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决文本到图像（T2I）模型的安全性问题，即其可能生成不当或有害的图像。论文提出了UPAM框架，从攻击的角度来研究T2I模型的鲁棒性。
关键思路

UPAM框架旨在欺骗T2I模型的文本和视觉防御机制，采用基于梯度的优化方法，同时引入Sphere-Probing Learning（SPL）和Semantic-Enhancing Learning（SEL）方案来支持梯度优化和生成目标对齐的图像，同时保证攻击的隐蔽性。
其它亮点

论文的实验结果表明UPAM框架具有较高的效率和有效性。论文使用了多个数据集进行实验，并开源了代码。值得深入研究的工作包括如何进一步提高攻击的效率和成功率，以及如何应对T2I模型的防御机制。
相关研究

最近的相关研究包括“TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP”和“Generating Natural Adversarial Examples”，等等。

UPAM: Unified Prompt Attack in Text-to-Image Generation Models Against Both Textual Filters and Visual Checkers

提问交流

提问交流