- 简介预训练和微调范式已经证明了其有效性,并已成为适应各种任务的语言模型的标准方法。目前,基于社区的平台提供了各种预训练模型的易于访问,因为任何人都可以发布而无需进行严格的验证过程。然而,如果精心设计,发布的预训练模型可以成为微调数据集的隐私陷阱。在这项工作中,我们提出了PreCurious框架,以揭示攻击者发布预训练模型并获得对最终微调模型的黑盒访问的新攻击面。PreCurious旨在提高成员推断和数据提取的一般隐私风险。 PreCurious的关键直觉是操纵预训练模型的记忆阶段,并以看似合法的配置指导微调。根据经验和理论证据,参数高效和差分隐私微调技术似乎对隐私攻击是无害的,因此防御微调模型的隐私攻击的有效性似乎很有前途。但是,与在良性模型上微调相比,PreCurious展示了以隐蔽的方式打破无保护性的可能性。通过进一步利用经过消毒的数据集,PreCurious可以在差分隐私微调下提取最初未公开的秘密。因此,PreCurious提醒用户不要从未知来源下载预训练模型,仅依赖教程或常识防御,并在完全擦除后发布经过消毒的数据集。
- 图表
- 解决问题PreCurious框架旨在揭示攻击者发布预训练模型并获取对最终微调模型的黑盒访问时的新攻击面,从而升级了成员推断和数据提取的隐私风险。
- 关键思路PreCurious框架的关键思路是在预训练模型的记忆阶段进行操作,并以看似合法的配置指导微调。
- 其它亮点论文实验结果表明,PreCurious可以在不被发现的情况下窃取微调模型中的隐私信息,即使使用参数高效和差分隐私微调技术也无法防御。此外,论文还提出了使用经过消毒的数据集进一步提取最初未公开的秘密的方法。
- 最近在这个领域中,还有一些相关研究,例如《Membership Inference Attack against Pre-trained Models》、《Privacy Risks of Pretrained Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢