Two Heads are Better than One: Nested PoE for Robust Defense Against Multi-Backdoors

2024年04月02日
  • 简介
    数据污染后门攻击可能会导致大型语言模型(LLMs)出现不良行为,因此防御这些攻击变得越来越重要。现有的防御机制通常假定攻击者只采用一种类型的触发器,而防御多种同时存在且相互独立的触发器类型需要一般的防御框架,并且尚未被深入探究。本文提出了嵌套专家积(NPoE)防御框架,其中包括一个混合专家(MoE)作为仅触发器的集成在PoE防御框架内,以同时防御多种触发器类型。在NPoE训练期间,主模型与一组较小的专家模型一起进行集成训练,这些模型学习后门触发器的特征。在推理时,只使用主模型。情感分析、仇恨言论检测和问题分类任务的实验结果表明,NPoE有效地防御了各种单独和混合触发器。由于NPoE中MoE结构的多功能性,该框架可以进一步扩展以防御其他攻击设置。
  • 图表
  • 解决问题
    如何同时防御多种数据污染后门攻击,是该论文试图解决的问题。这是一个新问题,因为现有的防御机制通常只考虑一种类型的触发器。
  • 关键思路
    该论文提出了一种Nested Product of Experts(NPoE)防御框架,利用混合专家模型(MoE)作为触发器组合,同时防御多种触发器类型。在训练NPoE时,主模型与多个小型专家模型组成集成模型,学习后门触发器的特征。在推理时,只使用主模型。这种MoE结构的多功能性使得该框架可以进一步扩展以防御其他攻击设置。
  • 其它亮点
    该论文通过情感分析、仇恨言论检测和问题分类任务的实验结果表明,NPoE可以有效地防御各种触发器,包括单独和混合触发器。该论文还提供了开源代码和使用的数据集。值得进一步研究的是如何将该框架应用于其他领域。
  • 相关研究
    最近的相关研究包括使用自适应学习率的防御方法、使用剪枝技术的防御方法以及使用对抗训练的防御方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论