- 简介今天的LLMs容易受到提示注入、越狱和其他攻击的影响,这些攻击允许对手用自己的恶意提示覆盖模型的原始指令。在这项工作中,我们认为这些攻击的主要漏洞之一是LLMs经常认为系统提示(例如应用程序开发人员的文本)与来自不受信任的用户和第三方的文本具有相同的优先级。为了解决这个问题,我们提出了一个指令层次结构,明确定义了当不同优先级的指令冲突时,模型应该如何行为。然后,我们提出了一种数据生成方法来展示这种分层指令遵循行为,教授LLMs有选择地忽略较低特权的指令。我们将这种方法应用于GPT-3.5,显示它极大地增加了鲁棒性——即使对于训练过程中未见过的攻击类型——同时对标准功能的降级最小。
- 图表
- 解决问题解决LLMs容易受到prompt injections、jailbreaks等攻击的问题,提出instruction hierarchy解决模型在处理不同权限指令时的优先级问题。
- 关键思路提出instruction hierarchy解决LLMs在处理不同权限指令时的优先级问题,并通过数据生成方法教授LLMs选择性忽略低权限指令,从而提高模型的鲁棒性。
- 其它亮点论文提出的instruction hierarchy方法大大提高了模型的鲁棒性,即使是未见过的攻击类型也能有效抵御,同时对模型的标准能力影响较小。实验使用了GPT-3.5模型,数据生成方法可复用。
- 相关研究包括对LLMs的安全性攻击和提高鲁棒性的方法,如Adversarial Examples、Defensive Distillation等。
沙发等你来抢
去评论
评论
沙发等你来抢