- 简介这项研究确定了大型语言模型(LLMs)在“越狱”攻击方面的潜在漏洞,特别关注阿拉伯语及其各种形式。虽然大多数研究集中在基于英语的提示操作上,但我们的调查扩大了范围,调查了阿拉伯语。我们最初在标准阿拉伯语中测试了AdvBench基准测试,发现即使使用前缀注入等提示操作技术,也无法引发LLMs生成不安全的内容。然而,当使用阿拉伯语音译和聊天用语(或阿拉伯文拼音)时,我们发现在OpenAI GPT-4和Anthropic Claude 3 Sonnet等平台上可以生成不安全的内容。我们的研究结果表明,使用阿拉伯语及其各种形式可能会暴露可能隐藏的信息,从而增加越狱攻击的风险。我们假设这种暴露可能是由于模型对特定单词的学习联系所致,这凸显了需要跨所有语言形式进行更全面的安全培训的必要性。
-
- 图表
- 解决问题探讨大语言模型(LLMs)在阿拉伯语中存在的潜在漏洞,特别是针对“越狱”攻击的问题。
- 关键思路使用阿拉伯语及其各种形式可能会暴露出隐藏的信息,从而增加越狱攻击的风险。需要对所有语言形式进行更全面的安全培训。
- 其它亮点通过测试AdvBench基准测试和使用阿拉伯语音译和聊天语言,发现在OpenAI GPT-4和Anthropic Claude 3 Sonnet等平台上可能会生成不安全的内容。
- 目前大多数研究集中在基于英语的提示操纵上,而本研究将范围扩大到阿拉伯语。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流