Prompt-Driven LLM Safeguarding via Directed Representation Optimization

2024年01月31日
  • 简介
    在保护大型语言模型(LLMs)不遵循包含有害意图的查询的实践中,向模型输入安全提示是一种常见的方法。然而,安全提示的工作机制尚未被完全理解,这阻碍了自动优化安全提示以提高LLM安全性的潜力。受此问题的启发,我们从模型表示的角度研究了安全提示的影响。我们发现,在模型的表示空间中,有害和无害查询可以被很大程度地区分开,但这并没有明显地增强安全提示的作用。相反,不同的安全提示将查询的表示移动到类似的方向,这使得模型更容易拒绝(即拒绝提供帮助),即使查询是无害的。受到这些发现的启发,我们提出了一种名为DRO(Directed Representation Optimization)的方法,用于自动安全提示优化。DRO将安全提示视为连续的可训练嵌入,并学习将有害/无害查询的表示沿着/相反于模型拒绝概率增加的方向移动。我们证明,DRO显着提高了人工制作的安全提示的保护性能,并在域外基准测试中优于强基线,而不会损害一般模型能力。
  • 图表
  • 解决问题
    论文旨在解决大型语言模型在处理有害意图的查询时的安全问题,探究安全提示的作用机制,并提出一种自动优化安全提示的方法。
  • 关键思路
    论文提出了一种名为DRO的方法,将安全提示视为可训练的连续嵌入,学习将有害/无害查询的表示沿着/相反于模型拒绝概率增加方向移动,从而显著提高了人工设计的安全提示的安全性能。
  • 其它亮点
    论文发现,安全提示并没有显著增强有害和无害查询在模型表示空间中的区分度,而是将查询的表示沿着相似的方向移动,使模型即使在处理无害查询时也更容易拒绝提供帮助。实验结果表明,DRO方法在多个数据集上均优于强基线,并且不会影响模型的通用能力。
  • 相关研究
    最近的相关研究包括使用对抗性训练和模型蒸馏来提高大型语言模型的安全性,以及使用安全提示来限制模型的行为。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论