- 简介安全对于大型语言模型(LLMs)的使用至关重要。为了加强LLMs的安全性,已经开发了多种技术,例如数据过滤和监督微调。然而,目前已知的技术假定用于LLMs安全对齐的语料库仅由语义进行解释。然而,这种假设在实际应用中并不成立,这导致LLMs存在严重的漏洞。例如,论坛用户经常使用ASCII艺术,这是一种基于文本的艺术形式,用于传达图像信息。在本文中,我们提出了一种新的基于ASCII艺术的越狱攻击,并引入了一个全面的基于图像文本的挑战(ViTC)基准来评估LLMs在识别无法仅通过语义进行解释的提示方面的能力。我们展示了五个最先进的LLMs(GPT-3.5、GPT-4、Gemini、Claude和Llama2)在识别以ASCII艺术形式提供的提示方面存在困难。基于这一观察结果,我们开发了越狱攻击ArtPrompt,利用LLMs在识别ASCII艺术方面的表现差来绕过安全措施并引发LLMs的不良行为。ArtPrompt只需要对受害LLMs进行黑盒访问,因此是一种实用的攻击。我们在五个最先进的LLMs上评估ArtPrompt,并展示了ArtPrompt可以有效而高效地诱发所有五个LLMs的不良行为。
-
- 图表
- 解决问题本论文试图解决LLMs安全性问题,特别是在语料库中包含ASCII艺术等无法仅通过语义解释的信息时,LLMs的安全性容易受到攻击。
- 关键思路本论文提出了一种基于ASCII艺术的破解攻击ArtPrompt,并引入了ViTC基准测试来评估LLMs在识别无法仅通过语义解释的提示方面的能力。
- 其它亮点论文展示了五种SOTA LLMs(GPT-3.5、GPT-4、Gemini、Claude和Llama2)在识别ASCII艺术提示方面的表现较差,因此提出了ArtPrompt攻击,并在五种SOTA LLMs上进行了评估。ArtPrompt可以有效地诱导所有五种LLMs产生不良行为。
- 相关研究包括使用数据过滤和监督微调等技术来加强LLMs的安全性。但是,这些技术假设用于LLMs安全对齐的语料库仅通过语义解释,这在现实应用中不成立。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流