- 简介大型语言模型(LLMs)如ChatGPT和Llama-2已经在现实世界的应用中变得普遍,表现出令人印象深刻的文本生成性能。LLMs基本上是从输入数据保持静态且缺乏明确结构的情况下开发出来的。为了在时间上交互行为,基于LLM的聊天系统必须将额外的上下文信息(即聊天历史记录)集成到它们的输入中,遵循预定义的结构。本文确定了如何将这种集成暴露给来自不受信任的来源的误导性上下文,并且无法区分系统和用户输入,允许用户注入上下文。我们提出了一种系统性方法,用于进行上下文注入攻击,旨在通过引入虚假上下文来引出不允许的响应。这可能会导致非法行为、不当内容或技术滥用。我们的上下文制造策略、接受调查和单词匿名化,有效地创建了具有误导性的上下文,这些上下文可以与攻击者定制的提示模板结构化,通过恶意用户消息实现注入。对于像ChatGPT和Llama-2这样的真实世界LLMs的全面评估证实了所提出的攻击的有效性,成功率达到97%。我们还讨论了可能采用的攻击检测和开发更安全模型的潜在对策。我们的研究结果提供了关于在交互和结构化数据场景中部署LLMs所面临的挑战的见解。
-
- 图表
- 解决问题如何对大型语言模型(LLMs)进行上下文注入攻击并检测它们的安全性?
- 关键思路通过注入虚假上下文来欺骗LLMs,使它们生成不合适的回复。提出了两种攻击策略:接受诱导和词汇匿名化。
- 其它亮点使用真实世界的LLMs ChatGPT和Llama-2进行了全面评估,攻击成功率高达97%。讨论了一些潜在的对策和安全模型。
- 最近的相关研究包括“对抗性样本生成”和“安全性和隐私保护”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流