The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Eric Wallace,
Kai Xiao,
Reimar Leike,
Lilian Weng,
Johannes Heidecke,
Alex Beutel
4082
热度
SEC
NLP
ML
2024年04月19日
  • 简介
    今天的LLMs容易受到提示注入、越狱和其他攻击的影响,这些攻击允许对手用自己的恶意提示覆盖模型的原始指令。在这项工作中,我们认为这些攻击的主要漏洞之一是LLMs经常认为系统提示(例如应用程序开发人员的文本)与来自不受信任的用户和第三方的文本具有相同的优先级。为了解决这个问题,我们提出了一个指令层次结构,明确定义了当不同优先级的指令冲突时,模型应该如何行为。然后,我们提出了一种数据生成方法来展示这种分层指令遵循行为,教授LLMs有选择地忽略较低特权的指令。我们将这种方法应用于GPT-3.5,显示它极大地增加了鲁棒性——即使对于训练过程中未见过的攻击类型——同时对标准功能的降级最小。
  • 图表
  • 解决问题
    解决LLMs容易受到prompt injections、jailbreaks等攻击的问题,提出instruction hierarchy解决模型在处理不同权限指令时的优先级问题。
  • 关键思路
    提出instruction hierarchy解决LLMs在处理不同权限指令时的优先级问题,并通过数据生成方法教授LLMs选择性忽略低权限指令,从而提高模型的鲁棒性。
  • 其它亮点
    论文提出的instruction hierarchy方法大大提高了模型的鲁棒性,即使是未见过的攻击类型也能有效抵御,同时对模型的标准能力影响较小。实验使用了GPT-3.5模型,数据生成方法可复用。
  • 相关研究
    相关研究包括对LLMs的安全性攻击和提高鲁棒性的方法,如Adversarial Examples、Defensive Distillation等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论