- 简介常见的做法是使用小型定制数据集对大型预训练模型进行微调,以生成特定应用的模型。网上广泛存在的基础模型检查点存在相当大的风险,包括易受后门攻击的漏洞。本文揭示了一种新的漏洞:隐私后门攻击。这种黑盒隐私攻击旨在放大微调模型时出现的隐私泄露:当受害者微调一个后门模型时,他们的训练数据泄露率会显著高于微调典型模型时的泄露率。我们在各种数据集和模型上进行了广泛的实验,包括视觉语言模型(CLIP)和大型语言模型,展示了这种攻击的广泛适用性和有效性。此外,我们进行了多个消融研究,使用不同的微调方法和推理策略,以彻底分析这种新威胁。我们的发现突出了机器学习社区的一个重要隐私问题,并呼吁重新评估在使用开源预训练模型时的安全协议。
- 图表
- 解决问题揭示开源预训练模型的隐私后门攻击问题,提高机器学习社区的安全意识。
- 关键思路通过黑盒隐私攻击,将隐私泄露率显著提高,从而揭示机器学习中的隐私问题。
- 其它亮点论文提出了一种新的隐私后门攻击方法,通过实验验证了该方法的有效性,并且对不同的微调方法和推理策略进行了多种分析。
- 近期相关研究包括:《Deep Leakage from Gradients》、《Backdoor Attacks against Transfer Learning with Pre-trained Language Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢