ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs

简介

安全对于大型语言模型（LLMs）的使用至关重要。为了加强LLMs的安全性，已经开发了多种技术，例如数据过滤和监督微调。然而，目前已知的技术假定用于LLMs安全对齐的语料库仅由语义进行解释。然而，这种假设在实际应用中并不成立，这导致LLMs存在严重的漏洞。例如，论坛用户经常使用ASCII艺术，这是一种基于文本的艺术形式，用于传达图像信息。在本文中，我们提出了一种新的基于ASCII艺术的越狱攻击，并引入了一个全面的基于图像文本的挑战（ViTC）基准来评估LLMs在识别无法仅通过语义进行解释的提示方面的能力。我们展示了五个最先进的LLMs（GPT-3.5、GPT-4、Gemini、Claude和Llama2）在识别以ASCII艺术形式提供的提示方面存在困难。基于这一观察结果，我们开发了越狱攻击ArtPrompt，利用LLMs在识别ASCII艺术方面的表现差来绕过安全措施并引发LLMs的不良行为。ArtPrompt只需要对受害LLMs进行黑盒访问，因此是一种实用的攻击。我们在五个最先进的LLMs上评估ArtPrompt，并展示了ArtPrompt可以有效而高效地诱发所有五个LLMs的不良行为。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图解决LLMs安全性问题，特别是在语料库中包含ASCII艺术等无法仅通过语义解释的信息时，LLMs的安全性容易受到攻击。
关键思路

本论文提出了一种基于ASCII艺术的破解攻击ArtPrompt，并引入了ViTC基准测试来评估LLMs在识别无法仅通过语义解释的提示方面的能力。
其它亮点

论文展示了五种SOTA LLMs（GPT-3.5、GPT-4、Gemini、Claude和Llama2）在识别ASCII艺术提示方面的表现较差，因此提出了ArtPrompt攻击，并在五种SOTA LLMs上进行了评估。ArtPrompt可以有效地诱导所有五种LLMs产生不良行为。
相关研究

相关研究包括使用数据过滤和监督微调等技术来加强LLMs的安全性。但是，这些技术假设用于LLMs安全对齐的语料库仅通过语义解释，这在现实应用中不成立。

ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs

提问交流

提问交流