A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses

2024年07月02日
  • 简介
    大型语言模型(LLMs)容易被越狱攻击所攻击,这些攻击方法会引发有害或通常不允许的输出。安全措施被开发和评估,以测试其防御越狱攻击的效果,这表明人们认为安全等同于鲁棒性。我们认为目前的防御机制,如输出过滤器和对齐微调,是基本不足的,无法确保模型的安全性。这些防御措施未能解决由双重意图查询和组合无害输出以实现有害目标而产生的风险。为了解决这个关键问题,我们引入了一个信息论威胁模型,称为推理对手,这些对手利用模型输出中的不允许信息泄漏来实现恶意目标。我们将这些对手与通常研究的安全对手区分开来,后者只是试图强制受害模型生成特定的不允许输出。我们通过问题分解和响应聚合展示了自动化推理对手的可行性。为了提供安全保证,我们为审查机制定义了一个信息审查标准,限制不允许信息的泄漏。我们提出了一种防御机制,确保这种限制,并揭示了固有的安全-效用权衡。我们的工作为释放安全LLMs的要求和涉及的效用成本提供了第一个理论上的基础理解。
  • 图表
  • 解决问题
    论文旨在解决大型语言模型(LLMs)在面对恶意攻击时的安全问题,提出了一种信息论威胁模型,即推理对手,以及相应的防御机制。
  • 关键思路
    通过引入信息审查标准和防御机制,限制模型输出中不合规信息的泄露,从而提高模型的安全性。
  • 其它亮点
    论文提出了推理对手的概念和相应的自动化攻击方法,同时提出了信息审查标准和防御机制来保证模型的安全性。实验结果表明,防御机制可以有效限制模型输出中不合规信息的泄露,但也会对模型的效用造成一定的影响。
  • 相关研究
    近期的相关研究包括对大型语言模型的安全性和鲁棒性进行分析和评估,以及提出了一些防御机制。相关论文包括《Adversarial Examples Are Not Bugs, They Are Features》和《Defending Against Neural Fake News》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论