Purple-teaming LLMs with Adversarial Defender Training

2024年07月01日
  • 简介
    现有的保护LLM的努力在积极揭示目标LLM的漏洞和适应新出现的安全风险方面存在局限性。为了解决这个问题,我们提出了紫队LLM对抗防御训练(PAD),这是一个管道,通过新颖地结合红队(攻击)和蓝队(安全训练)技术来保护LLM。在PAD中,我们以自我对抗的方式自动收集涵盖特定安全风险下LLM漏洞的对话数据,其中攻击者旨在引出不安全的响应,而防御者则生成安全的响应来抵御攻击。然后,我们以生成对抗网络的方式更新两个模块,通过训练攻击者引出更多不安全的响应,并更新防御者以识别它们并解释不安全的原因。实验结果表明,PAD在发现有效攻击和建立强大的安全防线方面显著优于现有的基准。此外,我们的发现表明,PAD在安全和整体模型质量之间取得了平衡。我们还揭示了保护LLM的关键挑战,包括防御多轮攻击和需要更精细的策略来识别特定的风险。
  • 解决问题
    本文旨在通过引入红队和蓝队技术,提出一种名为PAD的管道来保护LLMs,并解决现有保护LLMs的不足之处。
  • 关键思路
    PAD通过自我对话的方式自动收集涵盖LLMs特定安全风险的对话数据,其中攻击者旨在引出不安全的回应,而防御者则生成安全回应来应对这些攻击。
  • 其它亮点
    PAD在寻找有效攻击和建立强大的安全防护栏方面显著优于现有的基线方法。此外,PAD在安全性和模型质量之间取得了平衡。实验结果表明,PAD在防御多轮攻击和识别特定风险方面仍面临挑战。
  • 相关研究
    最近的相关研究包括“Towards Evaluating the Robustness of Neural Networks”和“Adversarial Examples Are Not Bugs, They Are Features”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论