ChatBug: A Common Vulnerability of Aligned LLMs Induced by Chat Templates

简介

大型语言模型（LLMs）被期望能够遵循用户的指示并进行对话。通常，增强LLMs的指示遵循能力的技术是使用按照预定义聊天模板结构化的数据进行微调。虽然聊天模板已被证明可以优化LLM的性能，但它们对LLM的安全对齐的影响却不太为人所知，这对于安全地大规模部署LLMs至关重要。在本文中，我们研究了聊天模板如何影响LLMs的安全对齐。我们发现了一种常见的漏洞，称为ChatBug，它是由聊天模板引入的。我们识别ChatBug的关键洞察力是，聊天模板提供了一种刚性格式，需要LLMs遵循，但不需要用户遵循。因此，恶意用户不一定会按照聊天模板提示LLMs。相反，恶意用户可以利用他们对聊天模板的知识，相应地制定他们的提示，以绕过LLMs的安全对齐。我们开发了两种攻击方法来利用ChatBug漏洞。我们证明了恶意用户可以利用ChatBug漏洞攻击八种最先进的LLMs，并有效地引出这些模型的意外响应。此外，我们还展示了ChatBug可以被现有越狱攻击利用以提高攻击成功率。我们调查了ChatBug的潜在对策。我们的结果表明，虽然对抗性训练有效地减轻了ChatBug漏洞，但受害模型会遭受显着的性能下降。这些结果凸显了安全对齐和有用性之间的权衡。开发新的指令调整方法以平衡这种权衡是未来研究的一个开放和关键方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在研究聊天模板对大型语言模型（LLMs）安全对齐的影响，发现聊天模板会引入一种名为ChatBug的常见漏洞，可能被恶意用户利用来规避LLMs的安全对齐。
关键思路

本文提出了一种新的漏洞类型ChatBug，并开发了两种攻击方法来利用这种漏洞，同时研究了对抗训练等潜在的对策。
其它亮点

本文展示了恶意用户如何利用ChatBug漏洞来引导LLMs做出意外响应，同时还发现ChatBug漏洞可以被现有的越狱攻击利用来增强攻击成功率。实验使用了8种最先进的LLMs，结果表明对抗训练能够缓解ChatBug漏洞，但受害模型的性能会显著下降。
相关研究

在这个领域中，最近的相关研究包括《Improving Language Understanding by Generative Pre-Training》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。

ChatBug: A Common Vulnerability of Aligned LLMs Induced by Chat Templates

提问交流

提问交流