- 简介数据污染后门攻击可能会导致大型语言模型(LLMs)出现不良行为,因此防御这些攻击变得越来越重要。现有的防御机制通常假定攻击者只采用一种类型的触发器,而防御多种同时存在且相互独立的触发器类型需要一般的防御框架,并且尚未被深入探究。本文提出了嵌套专家积(NPoE)防御框架,其中包括一个混合专家(MoE)作为仅触发器的集成在PoE防御框架内,以同时防御多种触发器类型。在NPoE训练期间,主模型与一组较小的专家模型一起进行集成训练,这些模型学习后门触发器的特征。在推理时,只使用主模型。情感分析、仇恨言论检测和问题分类任务的实验结果表明,NPoE有效地防御了各种单独和混合触发器。由于NPoE中MoE结构的多功能性,该框架可以进一步扩展以防御其他攻击设置。
- 图表
- 解决问题如何同时防御多种数据污染后门攻击,是该论文试图解决的问题。这是一个新问题,因为现有的防御机制通常只考虑一种类型的触发器。
- 关键思路该论文提出了一种Nested Product of Experts(NPoE)防御框架,利用混合专家模型(MoE)作为触发器组合,同时防御多种触发器类型。在训练NPoE时,主模型与多个小型专家模型组成集成模型,学习后门触发器的特征。在推理时,只使用主模型。这种MoE结构的多功能性使得该框架可以进一步扩展以防御其他攻击设置。
- 其它亮点该论文通过情感分析、仇恨言论检测和问题分类任务的实验结果表明,NPoE可以有效地防御各种触发器,包括单独和混合触发器。该论文还提供了开源代码和使用的数据集。值得进一步研究的是如何将该框架应用于其他领域。
- 最近的相关研究包括使用自适应学习率的防御方法、使用剪枝技术的防御方法以及使用对抗训练的防御方法。
沙发等你来抢
去评论
评论
沙发等你来抢