- 简介将预训练模型微调用于下游任务已经导致了许多开源的任务特定模型的出现。最近,模型合并(MM)已经成为一种有效的方法,以促进这些独立微调模型之间的知识转移。MM直接将多个微调的任务特定模型合并成一个合并模型,而无需额外的训练,得到的模型在多个任务中显示出了增强的能力。虽然MM提供了巨大的效用,但它可能会带来安全风险,因为攻击者可以利用MM来影响多个下游任务。然而,MM的安全风险几乎没有被研究过。在本文中,我们首先发现,作为一种新的学习范式,MM由于合并过程引入了现有后门攻击的独特挑战。为了解决这些挑战,我们引入了BadMerging,这是专门为MM设计的第一个后门攻击。值得注意的是,BadMerging允许攻击者通过贡献至少一个带后门的任务特定模型来危害整个合并模型。BadMerging包括一个两阶段攻击机制和一种基于特征插值的损失,以增强嵌入式后门对不同合并参数变化的鲁棒性。考虑到合并模型可能包含来自不同领域的任务,BadMerging可以同时攻击攻击者提供的任务(on-task攻击)和其他贡献者(off-task攻击),并通过新的攻击设计解决相应的独特挑战。大量实验表明,BadMerging在各种MM算法中实现了显着的攻击。我们的消融研究表明,所提出的攻击设计可以逐步为攻击性能做出贡献。最后,我们展示了先前的防御机制无法防御我们的攻击,突出了需要更先进的防御。
- 图表
- 解决问题研究Model Merging(MM)的安全风险,提出BadMerging攻击,并探索其对不同MM算法的攻击效果。
- 关键思路BadMerging是一种专门为MM设计的后门攻击,可以通过贡献一个带有后门的任务特定模型来危害整个合并模型。攻击包括两个阶段和一种基于特征插值的损失函数。BadMerging可以同时攻击来自不同领域的任务,并通过新的攻击设计解决相应的挑战。
- 其它亮点实验结果表明,BadMerging在不同的MM算法中都能实现显著的攻击效果。研究还发现现有的防御机制无法防御这种攻击。
- 该研究探讨了MM的安全问题,但是还需要更多的工作来解决这个问题。相关的研究包括对模型合并的进一步研究和针对BadMerging攻击的更有效的防御机制的设计。
沙发等你来抢
去评论
评论
沙发等你来抢