Take a Look at it! Rethinking How to Evaluate Language Model Jailbreak

2024年04月09日
  • 简介
    大型语言模型(LLMs)已经越来越多地与各种应用程序集成。为了确保LLMs不会生成不安全的响应,它们与指定受限内容的保障措施相一致。然而,这种一致性可以被称为越狱的技术绕过,以产生被禁止的内容。已经提出了不同的系统来自动执行越狱。这些系统依赖于评估方法来确定越狱尝试是否成功。然而,我们的分析表明,当前的越狱评估方法有两个限制。 (1)它们的目标缺乏明确性,与识别不安全响应的目标不一致。 (2)它们过于简化越狱结果为二进制结果,成功或失败。 在本文中,我们提出了三个指标,即保障违规、信息量和相对真实性,以评估语言模型越狱。此外,我们演示了这些指标如何与不同恶意行为者的目标相关。为了计算这些指标,我们引入了一个多方面的方法,在预处理响应后扩展了自然语言生成评估方法。我们在由三个恶意意图数据集和三个越狱系统产生的基准数据集上评估我们的指标。基准数据集由三个注释者标记。我们将我们的多方面方法与三种现有的越狱评估方法进行比较。实验表明,我们的多方面评估方法优于现有方法,与现有基线相比,F1分数平均提高了17%。我们的发现促使我们需要摆脱越狱问题的二元视图,并采用更全面的评估方法,以确保语言模型的安全性。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决当前语言模型破解评估方法存在的两个问题:目标不明确,结果过于二元化,提出了三个指标来评估破解结果,并提出了一个多方面的方法来计算这些指标。
  • 关键思路
    本文提出了三个指标来评估语言模型破解:违反保障、信息量和相对真实性,并介绍了一个多方面的方法来计算这些指标,从而解决了当前语言模型破解评估方法存在的问题。
  • 其它亮点
    本文使用三个恶意意图数据集和三个破解系统构建了一个基准数据集,并且使用三个注释者对其进行了标记。实验结果表明,本文提出的多方面评估方法的F1得分平均比现有基线提高了17%。本文的方法和指标可以帮助确保语言模型的安全性。
  • 相关研究
    在相关研究方面,最近的工作主要集中在语言模型的安全性和破解评估方法上。例如,有一些工作提出了使用对抗性样本来评估语言模型的安全性,如Adversarial NLI和TextAttack。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问