Backdoor in Seconds: Unlocking Vulnerabilities in Large Pre-trained Models via Model Editing

2024年10月23日
  • 简介
    大型预训练模型在各种下游任务中取得了显著的成功。然而,最近的研究表明,一种对抗性攻击(即后门攻击)可以通过污染训练数据集来操纵机器学习模型的行为,在大型预训练模型的实际应用中,尤其是那些定制化的模型中,这种攻击构成了重大威胁。因此,探索预训练模型的脆弱性并应对这些独特的挑战至关重要。通过在大型预训练模型(如ViT)上进行实证研究,我们发现了攻击大型预训练模型的以下独特挑战:1) 无法操纵甚至访问大型训练数据集,以及 2) 训练或微调这些模型所需的大量计算资源。为了解决这些挑战,我们在大型预训练模型的背景下建立了有效且可行的后门攻击的新标准。根据这些标准,我们提出了EDT模型,这是一种**E**fficient(高效)、**D**ata-free(无数据)、**T**raining-free(无训练)的后门攻击方法。受模型编辑技术的启发,EDT将基于编辑的轻量级代码库注入到大型预训练模型的后门中,从而在不污染训练数据集或训练受害模型的情况下,用目标图像的嵌入替换中毒图像的嵌入。我们的实验涵盖了多种预训练模型,如ViT、CLIP、BLIP和稳定扩散模型,并在图像分类、图像描述和图像生成等下游任务上验证了该方法的有效性。我们的代码包含在补充材料中。
  • 图表
  • 解决问题
    该论文试图解决大型预训练模型在实际应用中面临的后门攻击威胁问题。具体来说,它探讨了如何在无法访问或操纵大规模训练数据集的情况下,有效地对大型预训练模型进行后门攻击。这是一个新兴的问题,因为随着预训练模型的广泛应用,其安全性越来越受到关注。
  • 关键思路
    论文提出了一种名为EDT(Efficient, Data-free, Training-free)的新方法,该方法通过注入一个基于编辑的轻量级代码本,直接修改模型内部的嵌入向量,从而实现对目标图像的后门攻击,而无需污染训练数据集或重新训练模型。这一思路突破了传统后门攻击依赖于数据集和模型训练的限制,为研究大型预训练模型的安全性提供了新的视角。
  • 其它亮点
    论文在多个大型预训练模型(如ViT、CLIP、BLIP和Stable Diffusion)上进行了广泛的实验,涵盖了图像分类、图像描述和图像生成等下游任务,证明了EDT方法的有效性。此外,作者还开源了实验代码,方便其他研究者复现和进一步研究。未来的研究可以探索如何防御这种新型的后门攻击,以及在更复杂的场景下评估其效果。
  • 相关研究
    近年来,关于机器学习模型安全性的研究逐渐增多,特别是在对抗性攻击和后门攻击方面。一些相关的研究包括:1) "BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain",探讨了供应链中的后门攻击;2) "Neural Cleanse: Identifying and Mitigating Backdoor Attacks under the Closed-Set Setting",提出了检测和缓解后门攻击的方法;3) "Data-Free Knowledge Distillation for Deep Neural Networks",研究了无数据的知识蒸馏技术,与本文的无数据攻击方法有相似之处。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论