- 简介大型语言模型(LLMs)经常会表现出不良行为,尽管它们明确地被调整为无害。例如,红队行动文献已经产生了各种“越狱”技术,以从被调整为无害的模型中引出有害文本。最近关于红队行动、模型编辑和可解释性的研究表明,这种挑战源于(对抗性)微调主要是压制而不是消除LLMs的不良能力。先前的工作引入了潜在对抗训练(LAT)作为提高对各种故障的鲁棒性的一种方式。这些先前的工作考虑了无目标潜在空间攻击,其中对手扰动潜在激活以最大化在期望行为示例上的损失。无目标LAT可以提供一种通用类型的鲁棒性,但不利用有关特定故障模式的信息。在这里,我们尝试有目标的LAT,其中对手试图在特定的竞争任务上最小化损失。我们发现,它可以增强各种最先进的方法。首先,我们使用有目标的LAT来提高对越狱的鲁棒性,优于强R2D2基线,计算量更少几个数量级。其次,我们使用它更有效地消除后门,而不需要了解触发器。最后,我们使用它更有效地消除特定不良任务的知识,这种方式也更加鲁棒,可以重新学习。总的来说,我们的结果表明,有目标的LAT可以是防御LLMs有害行为的有效工具。
- 图表
- 解决问题本文旨在解决大型语言模型的危险行为问题,特别是针对有意识地定制模型以避免危险行为的情况。
- 关键思路本文提出了一种有针对性的潜在对抗训练(targeted LAT)方法,通过最小化在特定竞争任务上的损失来提高模型的鲁棒性。
- 其它亮点实验结果表明,有针对性的LAT可以提高模型的鲁棒性,有效地防御LLMs的危险行为。通过使用有针对性的LAT,可以更有效地消除后门,更好地忘记特定的不良任务,并且更加鲁棒地防止重新学习。
- 最近的一些相关研究包括:红队技术、模型编辑和可解释性等方面的研究。此外,之前的研究还提出了无目标潜在对抗训练(untargeted LAT)的方法,用于提高模型的鲁棒性。
沙发等你来抢
去评论
评论
沙发等你来抢