Combating Adversarial Attacks with Multi-Agent Debate

2024年01月11日
  • 简介
    尽管最先进的语言模型取得了令人瞩目的成果,但它们仍然容易受到推理时的对抗攻击,例如由红队生成的对抗性提示。为了提高语言模型生成的总体质量,提出了一种方法,即多代理辩论,其中语言模型通过讨论和反馈进行自我评估。我们实现了当前最先进的语言模型之间的多代理辩论,并评估了模型在单个和多个代理设置中受到红队攻击的易感性。我们发现,当越狱或能力较弱的模型被迫与未越狱或能力更强的模型进行辩论时,多代理辩论可以减少模型的有害性。我们还发现,在一般情况下,多代理交互的使用可以带来微小的改进。我们还通过嵌入聚类执行对抗性提示内容分类,并分析不同模型对不同类型攻击主题的易感性。
  • 图表
  • 解决问题
    论文旨在通过多智能体辩论的方式提高语言模型的生成质量,并评估模型对红队攻击的抵抗能力。
  • 关键思路
    多智能体辩论可以减少模型的有害性,并在一定程度上提高生成质量。同时,通过嵌入聚类进行对抗性提示内容分类,分析不同模型对不同类型攻击主题的敏感度。
  • 其它亮点
    实验结果表明,多智能体辩论可以降低模型的有害性。论文使用了当前最先进的语言模型,并在单一和多智能体设置下进行了评估。论文还使用了嵌入聚类对抗性提示内容进行分类,并分析了不同模型对不同类型攻击主题的敏感度。
  • 相关研究
    最近的相关研究包括 arXiv:2209.07858 和 arXiv:2305.14325。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论