MMA-Diffusion: MultiModal Attack on Diffusion Models

简介

近年来，文本到图像（T2I）模型取得了显著进展，得到了广泛应用。然而，这种进展无意中为潜在的滥用打开了途径，特别是在生成不适当或不安全的内容方面。我们的工作介绍了MMA-Diffusion，这是一个框架，对T2I模型的安全构成了重大和现实的威胁，有效地绕过了当前开源模型和商业在线服务中的防御措施。与以前的方法不同，MMA-Diffusion利用文本和视觉模态来绕过提示过滤器和事后安全检查器等保障措施，从而揭示和突出现有防御机制的漏洞。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决T2I模型在生成不适当或不安全的内容方面的潜在滥用问题，以及现有防御机制的漏洞。
关键思路

论文提出了一种名为MMA-Diffusion的框架，利用文本和视觉模态绕过当前防御措施，揭示现有防御机制的漏洞。
其它亮点

论文介绍了MMA-Diffusion框架，该框架利用文本和视觉模态绕过当前防御措施，揭示现有防御机制的漏洞。实验使用了多个数据集，并开源了代码。论文指出现有的防御机制需要进一步改进。
相关研究

最近的相关研究包括：1.《Generative Adversarial Text-to-Image Synthesis》；2.《Plug and Play Language Models: A Simple Approach to Controlled Text Generation》；3.《Towards Diverse and Natural Image Descriptions via a Conditional GAN》等。

MMA-Diffusion: MultiModal Attack on Diffusion Models

提问交流

提问交流