- 简介最近的大型语言模型(LLM)防御大大提高了模型拒绝有害查询的能力,即使遭受对抗攻击。然而,LLM防御主要是针对自动对抗攻击进行评估,这种单次对话的威胁模型对于真实世界的恶意使用来说是不足够的。我们证明了多轮人类越狱可以揭示重大漏洞,攻击成功率(ASR)超过70%,对于那些报告单次自动攻击ASR为个位数的防御措施来说,这是不可忽视的。人类越狱还揭示了机器遗忘防御的漏洞,成功从已遗忘的模型中恢复双重用途的生物安全知识。我们将这些结果编译成Multi-Turn Human Jailbreaks(MHJ),这是一个由537个多轮越狱的2,912个提示组成的数据集。我们公开发布MHJ以及在数十个商业红队行动中开发的越狱策略汇编,支持更强大的LLM防御研究。
- 图表
- 解决问题本论文旨在研究基于大型语言模型的防御方法的脆弱性,探究多轮人类攻击模型对于这些防御方法的攻击效果,并提出一种新的数据集MHJ以供研究使用。
- 关键思路论文通过人类攻击模型对大型语言模型的防御方法进行评估,发现这些方法在面对多轮人类攻击时表现脆弱,并提出了一种新的数据集MHJ以供研究使用。
- 其它亮点论文使用人类攻击模型对大型语言模型的防御方法进行评估,提出了一种新的数据集MHJ,并探究了机器遗忘防御方法的脆弱性。实验结果显示,大多数防御方法在面对多轮人类攻击时表现脆弱,MHJ数据集可用于更深入的研究。论文还提出了多种攻击策略,值得进一步研究。
- 与本论文相关的研究包括:1. Adversarial Attacks Against Chatbots: A Comprehensive Study (ACL 2020);2. Adversarial Attack and Defense of Structured Prediction Models (ICLR 2020);3. Adversarial Attacks on Neural Networks for Graph Data (ICML 2018)。
沙发等你来抢
去评论
评论
沙发等你来抢