Learning diverse attacks on large language models for robust red-teaming and safety tuning

2024年05月28日
  • 简介
    红队测试或者识别引起有害响应的提示,是确保大型语言模型(LLMs)安全和负责任部署的关键步骤。为了对抗多种攻击模式,开发有效的保护措施需要发现多样化的攻击。自动红队测试通常使用强化学习来微调攻击者语言模型,以生成引起目标LLM不良响应的提示,例如通过辅助毒性分类器进行衡量。我们发现,即使明确规定优先考虑新颖性和多样性,现有方法仍然存在模式崩溃或无法生成有效攻击的问题。作为一种灵活而基于概率原理的替代方案,我们建议使用GFlowNet微调,然后进行二次平滑阶段,来训练攻击者模型以生成多样化和有效的攻击提示。我们发现,我们的方法生成的攻击对于各种目标LLMs都是有效的,无论是否进行安全调整,并且在目标LLMs之间具有良好的迁移性。最后,我们证明,使用我们的方法生成的红队测试提示数据集进行安全调整的模型,对于其他基于RL的红队测试方法的攻击具有鲁棒性。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)的安全性问题,即如何自动化发现并防止LLMs对有害提示的响应。同时,作者试图提出一种新的自动化红队技术,以生成多样化和有效的攻击提示。
  • 关键思路
    本论文提出了一种基于GFlowNet fine-tuning和二次平滑的自动化红队技术,用于生成多样化和有效的攻击提示。相比于已有的技术,该方法更加灵活、可靠,并且能够有效地攻击各种LLMs。
  • 其它亮点
    本论文的实验结果表明,作者提出的自动化红队技术能够生成多样化和有效的攻击提示,并且能够攻击多种LLMs,包括经过安全调整的LLMs。此外,作者还提出了一种新的评估方法,用于评估攻击提示的多样性和有效性。作者还开源了其代码和数据集,以方便其他研究人员进行进一步的研究。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《Generating Diverse and Natural Language Adversarial Examples Using a Deep Reinforcement Learning Approach》、《Generating High-Quality Adversarial Texts with a Coarse-to-Fine Flow-based Generative Model》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论