Two Heads are Better than One: Nested PoE for Robust Defense Against Multi-Backdoors

简介

数据污染后门攻击可能会导致大型语言模型（LLMs）出现不良行为，因此防御这些攻击变得越来越重要。现有的防御机制通常假定攻击者只采用一种类型的触发器，而防御多种同时存在且相互独立的触发器类型需要一般的防御框架，并且尚未被深入探究。本文提出了嵌套专家积（NPoE）防御框架，其中包括一个混合专家（MoE）作为仅触发器的集成在PoE防御框架内，以同时防御多种触发器类型。在NPoE训练期间，主模型与一组较小的专家模型一起进行集成训练，这些模型学习后门触发器的特征。在推理时，只使用主模型。情感分析、仇恨言论检测和问题分类任务的实验结果表明，NPoE有效地防御了各种单独和混合触发器。由于NPoE中MoE结构的多功能性，该框架可以进一步扩展以防御其他攻击设置。
图表
解决问题

如何同时防御多种数据污染后门攻击，是该论文试图解决的问题。这是一个新问题，因为现有的防御机制通常只考虑一种类型的触发器。
关键思路

该论文提出了一种Nested Product of Experts(NPoE)防御框架，利用混合专家模型(MoE)作为触发器组合，同时防御多种触发器类型。在训练NPoE时，主模型与多个小型专家模型组成集成模型，学习后门触发器的特征。在推理时，只使用主模型。这种MoE结构的多功能性使得该框架可以进一步扩展以防御其他攻击设置。
其它亮点

该论文通过情感分析、仇恨言论检测和问题分类任务的实验结果表明，NPoE可以有效地防御各种触发器，包括单独和混合触发器。该论文还提供了开源代码和使用的数据集。值得进一步研究的是如何将该框架应用于其他领域。
相关研究

最近的相关研究包括使用自适应学习率的防御方法、使用剪枝技术的防御方法以及使用对抗训练的防御方法。

Two Heads are Better than One: Nested PoE for Robust Defense Against Multi-Backdoors

评论