Backdoor Removal for Generative Large Language Models

2024年05月13日
  • 简介
    随着快速进步,生成式大型语言模型(LLMs)在各种自然语言处理(NLP)任务中占据主导地位,从理解到推理。然而,由于互联网上的大量文本数据的训练和访问性增加,语言模型固有的漏洞可能会加剧。恶意对手可能会在网上发布有毒数据,并对在有毒数据上预训练的受害者LLMs进行后门攻击。后门LLMs对于正常查询表现得无害,并在激活后门触发器时生成有害响应。尽管在LLMs的安全问题上付出了重大努力,但LLMs仍然在与后门攻击作斗争。正如Anthropic最近揭示的那样,现有的安全培训策略,包括监督微调(SFT)和来自人类反馈的强化学习(RLHF),无法在LLM在预训练阶段被后门攻击后吊销后门。在本文中,我们提出了模拟和消除(SANDE)来消除生成LLMs的不良后门映射。我们最初提出了覆盖式监督微调(OSFT),以有效地删除已知触发器的后门。然后,为了处理触发器模式未知的情况,我们将OSFT集成到我们的两阶段框架SANDE中。与以前的工作集中于识别后门不同,我们增强了安全的LLMs即使在激活确切触发器时也能表现正常。我们进行了全面的实验,以显示我们提出的SANDE对抗后门攻击是有效的,同时对LLMs的强大能力带来最小的伤害,而无需访问未被后门攻击的干净模型。我们将发布可重复的代码。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:论文试图解决生成式大语言模型(LLMs)遭受后门攻击的安全问题,提出Simulate and Eliminate(SANDE)框架来消除后门攻击的影响。
  • 关键思路
    关键思路:论文提出了一种有效的消除后门攻击的方法,即Overwrite Supervised Fine-tuning(OSFT)和SANDE框架。SANDE框架包括两个阶段,第一阶段使用OSFT来消除已知的后门触发器,第二阶段使用SANDE来处理未知的后门触发器。
  • 其它亮点
    其他亮点:论文的实验结果表明,SANDE框架可以有效地消除后门攻击,并且不会对LLMs的性能造成太大的影响。论文还提供了可重复使用的代码。值得进一步研究的工作包括如何防止后门攻击和提高LLMs的安全性。
  • 相关研究
    相关研究:最近的相关研究包括使用对抗性训练来防止后门攻击,使用正则化来提高LLMs的鲁棒性,以及使用多个预训练模型来减少后门攻击的影响。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问