- 简介本文介绍了针对大型语言模型(LLMs)的越狱攻击,这种攻击会诱使模型生成违反伦理或法律的有害内容,对LLM的安全构成重大威胁。目前的越狱攻击面临两个主要挑战:由于防御措施而导致的低成功率以及制作特定提示所需的高资源要求。本文引入了Virtual Context,利用LLM安全中之前被忽视的特殊标记,改进了越狱攻击。Virtual Context通过显著提高现有越狱方法的成功率,并且需要极少的目标模型背景知识,因此在黑盒设置中提高了有效性而不需要额外的开销。全面的评估表明,Virtual Context辅助的越狱攻击可以在各种LLM上将四种广泛使用的越狱方法的成功率提高约40%。此外,将Virtual Context应用于原始的恶意行为仍然可以实现显著的越狱效果。总之,本研究突出了越狱攻击中特殊标记的潜力,并建议在红队测试中包括此威胁,以全面提高LLM的安全性。
- 图表
- 解决问题本论文旨在解决大型语言模型(LLMs)的越狱攻击问题,即诱导LLMs生成违反道德或法律的有害内容,从而对LLMs的安全构成重大威胁。
- 关键思路本文提出了一种名为Virtual Context的解决方案,利用先前在LLMs安全方面被忽视的特殊标记,显著提高了现有越狱方法的成功率,并且对目标模型的背景知识要求很少,因此在不增加额外开销的情况下增强了黑盒设置的有效性。
- 其它亮点论文通过全面的评估表明,Virtual Context辅助的越狱攻击可以在各种LLMs上将四种广泛使用的越狱方法的成功率提高约40%。此外,将Virtual Context应用于原始恶意行为仍然可以实现显著的越狱效果。
- 最近的相关研究包括GPT-2和GPT-3的安全性评估,以及针对LLMs的其他攻击和防御方法的研究,例如对抗性样本和模型压缩。
沙发等你来抢
去评论
评论
沙发等你来抢