Jailbreaking LLMs with Arabic Transliteration and Arabizi

简介

这项研究确定了大型语言模型（LLMs）在“越狱”攻击方面的潜在漏洞，特别关注阿拉伯语及其各种形式。虽然大多数研究集中在基于英语的提示操作上，但我们的调查扩大了范围，调查了阿拉伯语。我们最初在标准阿拉伯语中测试了AdvBench基准测试，发现即使使用前缀注入等提示操作技术，也无法引发LLMs生成不安全的内容。然而，当使用阿拉伯语音译和聊天用语（或阿拉伯文拼音）时，我们发现在OpenAI GPT-4和Anthropic Claude 3 Sonnet等平台上可以生成不安全的内容。我们的研究结果表明，使用阿拉伯语及其各种形式可能会暴露可能隐藏的信息，从而增加越狱攻击的风险。我们假设这种暴露可能是由于模型对特定单词的学习联系所致，这凸显了需要跨所有语言形式进行更全面的安全培训的必要性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

探讨大语言模型（LLMs）在阿拉伯语中存在的潜在漏洞，特别是针对“越狱”攻击的问题。
关键思路

使用阿拉伯语及其各种形式可能会暴露出隐藏的信息，从而增加越狱攻击的风险。需要对所有语言形式进行更全面的安全培训。
其它亮点

通过测试AdvBench基准测试和使用阿拉伯语音译和聊天语言，发现在OpenAI GPT-4和Anthropic Claude 3 Sonnet等平台上可能会生成不安全的内容。
相关研究

目前大多数研究集中在基于英语的提示操纵上，而本研究将范围扩大到阿拉伯语。

Jailbreaking LLMs with Arabic Transliteration and Arabizi

提问交流

提问交流