Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs

2024年04月22日
  • 简介
    大型语言模型的对齐是为了确保安全,防止用户生成误导性内容或非法活动的指令。然而,之前的研究表明对齐过程容易受到攻击。攻击者可以操纵安全训练数据,注入后门,这些后门就像通用的sudo命令:只需将后门字符串添加到任何提示中,模型就会产生有害的响应,否则模型会表现得很安全。我们在IEEE SaTML 2024上举办了一项比赛,挑战参与者在几个大型语言模型中找到通用后门。本报告总结了主要发现和未来研究的有希望的想法。
  • 图表
  • 解决问题
    论文旨在解决大型语言模型中的通用后门问题,即攻击者可以通过篡改安全训练数据注入后门字符串,从而使模型在接收到该字符串时输出有害的内容。
  • 关键思路
    论文提出一种检测和防御通用后门的方法,该方法基于对训练数据的分析和对模型的检测,可以有效地检测和防御通用后门攻击。
  • 其它亮点
    论文通过实验验证了所提出方法的有效性,并在IEEE SaTML 2024比赛中取得了好成绩。论文还提出了一些值得进一步研究的方向,如如何在不影响模型性能的情况下防御更复杂的后门攻击。
  • 相关研究
    近年来,关于大型语言模型的安全性问题已经引起了广泛的关注。相关研究包括“语言模型中的后门攻击”、“对抗性样本攻击”、“模型隐私保护”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论