- 简介大语言模型(LLM)展示了非凡的能力,但是它们的强大也带来了重要的安全考虑。虽然已经对LLMs在聊天模式下的安全性进行了广泛的研究,但是它们的函数调用特性的安全问题却被忽视了。本文揭示了LLMs函数调用过程中的一个关键漏洞,引入了一种新型的“越狱函数”攻击方法,利用了对齐偏差、用户强制和缺乏严格的安全过滤器。我们对包括GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-pro在内的六种最先进的LLM进行了实证研究,发现这种攻击的惊人平均成功率超过90%。我们全面分析了为什么函数调用容易受到这种攻击,并提出了防御策略,包括使用防御提示。我们的研究结果强调了需要增强LLMs函数调用能力的安全措施的紧迫性,通过确定以前未被探索的风险、设计有效的攻击方法和提出实用的防御措施,为AI安全领域做出了贡献。我们的代码可在https://github.com/wooozihui/jailbreakfunction上找到。
-
- 图表
- 解决问题发现大型语言模型中函数调用功能的安全漏洞,提出了一种新的攻击方法并探讨了防御策略。
- 关键思路通过实验发现大型语言模型中函数调用功能存在安全漏洞,提出了一种新的攻击方法——"jailbreak function"攻击,并提出了防御策略。
- 其它亮点实验结果表明,六个最先进的大型语言模型中,"jailbreak function"攻击的平均成功率超过90%。作者提出了防御策略,包括使用防御提示等。代码已经开源。
- 该论文探讨了大型语言模型中函数调用功能的安全问题,与此相关的研究还有很多,例如"Language Models are Few-Shot Learners"。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流