The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

简介

今天的LLMs容易受到提示注入、越狱和其他攻击的影响，这些攻击允许对手用自己的恶意提示覆盖模型的原始指令。在这项工作中，我们认为这些攻击的主要漏洞之一是LLMs经常认为系统提示（例如应用程序开发人员的文本）与来自不受信任的用户和第三方的文本具有相同的优先级。为了解决这个问题，我们提出了一个指令层次结构，明确定义了当不同优先级的指令冲突时，模型应该如何行为。然后，我们提出了一种数据生成方法来展示这种分层指令遵循行为，教授LLMs有选择地忽略较低特权的指令。我们将这种方法应用于GPT-3.5，显示它极大地增加了鲁棒性——即使对于训练过程中未见过的攻击类型——同时对标准功能的降级最小。
图表
解决问题

解决LLMs容易受到prompt injections、jailbreaks等攻击的问题，提出instruction hierarchy解决模型在处理不同权限指令时的优先级问题。
关键思路

提出instruction hierarchy解决LLMs在处理不同权限指令时的优先级问题，并通过数据生成方法教授LLMs选择性忽略低权限指令，从而提高模型的鲁棒性。
其它亮点

论文提出的instruction hierarchy方法大大提高了模型的鲁棒性，即使是未见过的攻击类型也能有效抵御，同时对模型的标准能力影响较小。实验使用了GPT-3.5模型，数据生成方法可复用。
相关研究

相关研究包括对LLMs的安全性攻击和提高鲁棒性的方法，如Adversarial Examples、Defensive Distillation等。

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

评论