- 简介图像生成领域的快速发展引起了全球的关注。安全问题需要进一步审查和研究。目前这个领域已经有了一些工作,主要实现了后处理设计、针对特定模型或产生次优质量图像。尽管如此,在本文中,我们发现了一种黑盒攻击方法,具有三个优点。它能够(i)进行有目的和语义驱动的攻击,从理论和实践上对这个庞大的用户群体构成危险;(ii)以黑盒方式出人意料地超越了白盒攻击;(iii)无需任何后处理工作。我们方法的核心灵感来自于T2I模型中分类器自由引导(CFG)的概念引导有趣特性,我们发现在CLIP嵌入空间中进行简单的引导,加上语义损失和一个敏感词列表非常有效。此外,我们的结果揭示并突出了现有防御机制的漏洞。
- 图表
- 解决问题本论文旨在探索黑盒攻击方法对图像生成模型的威胁,并揭示现有防御机制的漏洞。
- 关键思路该论文提出了一种基于Classifier-Free guidance(CFG)的黑盒攻击方法,通过在CLIP嵌入空间中进行简单的引导,结合语义损失和敏感词列表,实现了有向和语义驱动的攻击。该方法在黑盒情况下优于白盒攻击,并且不需要任何后处理。
- 其它亮点论文的实验结果显示,该黑盒攻击方法具有较高的攻击成功率和图像质量,揭示了现有防御机制的漏洞。论文使用了多个数据集进行实验,并公开了代码。
- 最近的相关研究包括:1. Exploring the Security of Conditional Image Generation with Invertible Neural Networks;2. Towards Evaluating the Robustness of Neural Networks;3. Adversarial Attacks and Defenses in Images, Graphs and Text: A Review。
沙发等你来抢
去评论
评论
沙发等你来抢