GradSafe: Detecting Unsafe Prompts for LLMs via Safety-Critical Gradient Analysis

2024年02月21日
  • 简介
    本研究提出了GradSafe方法,通过检查LLMs中关键安全参数的梯度,有效地检测不安全的提示语。现有的检测不安全提示语的方法主要是在线审查API或经过微调的LLMs。然而,这些策略通常需要大量的数据收集和培训过程。我们的方法基于一个重要观察:LLMs的损失梯度与符合响应配对的不安全提示语表现出类似的模式,这些模式在某些关键安全参数上非常相似。相反,安全提示会导致明显不同的梯度模式。基于这个观察,GradSafe分析来自提示语(与符合响应配对)的梯度,以准确检测不安全的提示语。我们展示了在没有进一步培训的情况下应用于Llama-2的GradSafe,在检测不安全的提示语方面优于经过大量数据集微调的Llama Guard。这种卓越的性能在零-shot和适应情况下都是一致的,这在我们对ToxicChat和XSTest的评估中得到了证实。GradSafe的源代码可以在https://github.com/xyq7/GradSafe上找到。
  • 图表
  • 解决问题
    本篇论文旨在解决大型语言模型(LLMs)面临的不安全提示问题,提出了一种通过分析LLMs中关键参数的梯度来有效检测不安全提示的方法GradSafe。
  • 关键思路
    GradSafe方法通过分析LLMs的损失梯度,检测不安全提示。研究发现,不安全提示与合规响应配对的梯度在某些关键参数上呈现出相似的模式,而安全提示则会导致明显不同的梯度模式。GradSafe利用这一发现来准确检测不安全提示。
  • 其它亮点
    论文使用了Llama-2模型,证明了GradSafe方法在不需要进一步训练的情况下,优于经过大量数据集微调的Llama Guard方法,无论是零样本还是自适应情况下都表现出色。实验使用了ToxicChat和XSTest数据集,并提供了开源代码。
  • 相关研究
    最近的相关研究包括使用在线审核API或经过微调的LLMs来检测不安全提示的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论