- 简介大型语言模型(LLMs)容易受到普遍越狱攻击的影响,这些攻击通过系统性地绕过模型的安全防护措施,使用户能够执行需要多次模型交互的有害过程,例如大规模制造非法物质。为了防御这些攻击,我们引入了宪法分类器:这是一种基于合成数据训练的安全防护措施,这些数据是通过用自然语言规则(即“宪法”)提示LLMs生成的,这些规则规定了允许和禁止的内容。在估计超过3000小时的红队测试中,没有任何红队成员能够找到一种普遍越狱方法,可以从早期受分类器保护的LLM中提取与未受保护模型在大多数目标查询上相同详细程度的信息。在自动化评估中,增强的分类器展示了对保留的领域特定越狱攻击的强大防御能力。这些分类器还保持了部署的可行性,生产流量拒绝率仅绝对增加了0.38%,推理开销增加了23.7%。我们的研究表明,在保持实际部署可行性的前提下,防御普遍越狱攻击是可行的。
- 图表
- 解决问题论文试图解决大型语言模型(LLMs)容易受到普遍越狱提示策略攻击的问题,这些攻击可以系统性地绕过模型的安全防护,使用户能够执行需要多次模型交互的有害过程,例如大规模制造非法物质。这是一个新问题,随着LLMs的应用越来越广泛,其安全性问题也日益受到关注。
- 关键思路关键思路是引入宪法分类器(Constitutional Classifiers),这是一种基于合成数据训练的安全防护机制。这些合成数据通过自然语言规则(即“宪法”)来规定允许和禁止的内容,从而生成。相比当前研究,这种方法不仅提高了对越狱攻击的防御能力,还保持了模型的实际部署可行性。
- 其它亮点该研究在超过3,000小时的红队测试中未发现能够从早期分类器保护的LLM中提取详细信息的普遍越狱方法。自动化评估显示,增强型分类器对未知领域的特定越狱有强大的防御力。此外,该方法在实际应用中的拒绝率仅增加了0.38%,推理开销增加了23.7%,表明其具有较高的实用性和效率。研究团队没有提及是否开源代码,但强调了未来可以在改进分类器性能和扩展应用场景方面继续深入研究。
- 最近在这个领域内的相关研究还包括:1.《Improving Robustness of Language Models Against Adversarial Attacks》;2.《Evaluating and Enhancing the Security of Large Language Models》;3.《Defending Against Prompt Injection Attacks in Language Models》。这些研究都旨在提高LLMs的安全性和鲁棒性,防止各种形式的攻击。
沙发等你来抢
去评论
评论
沙发等你来抢