Automatic Jailbreaking of the Text-to-Image Generative AI Systems

简介

最近，人工智能系统在各种任务上表现出极强的性能，甚至超过了人类，例如基于大型语言模型（LLMs）的信息检索、语言生成和图像生成。与此同时，有各种安全风险可能会绕过LLMs中的对齐，导致生成恶意内容，这通常被称为越狱。然而，大多数以前的工作只关注了LLMs中基于文本的越狱，而文本到图像（T2I）生成系统的越狱相对被忽视。在本文中，我们首先评估了商业T2I生成系统（如ChatGPT、Copilot和Gemini）在使用天真提示时侵犯版权的安全性。通过这个实证研究，我们发现Copilot和Gemini仅阻止了12％和17％的带有天真提示的攻击，而ChatGPT阻止了84％的攻击。然后，我们进一步提出了一种更强大的自动化越狱管道，用于T2I生成系统，该管道生成绕过其安全保护的提示。我们的自动化越狱框架利用LLM优化器生成提示，以最大化从生成的图像中违反程度，而无需进行任何权重更新或梯度计算。令人惊讶的是，我们简单而有效的方法成功地越狱了ChatGPT，阻止率为11.0％，使其在76％的时间内生成受版权保护的内容。最后，我们探索了各种防御策略，例如后生成过滤和机器遗忘技术，但发现它们不足够，这表明需要更强大的防御机制。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在评估商业T2I生成系统（如ChatGPT、Copilot和Gemini）在版权侵权方面的安全性，并提出一种自动化破解T2I生成系统的方法，以产生绕过其安全防护的提示。
关键思路

本文提出了一种利用LLM优化器生成提示以最大程度地违反生成的图像而不需要任何权重更新或梯度计算的自动化破解框架，成功地破解了ChatGPT，并探索了各种防御策略，但发现它们不足以应对这种攻击。
其它亮点

本文评估了商业T2I生成系统在版权侵权方面的安全性，并提出了一种自动化破解T2I生成系统的方法。实验结果表明，ChatGPT成功被破解，说明当前T2I生成系统的安全性需要更强的防御机制。
相关研究

最近在这个领域中，还有一些相关的研究被进行，如《Jukebox：A Generative Model for Music》、《GPT-3: Language Models are Few-Shot Learners》等。

Automatic Jailbreaking of the Text-to-Image Generative AI Systems

提问交流

提问交流