SOPHON: Non-Fine-Tunable Learning to Restrain Task Transferability For Pre-trained Models

2024年04月19日
  • 简介
    越来越多的开发人员不再从头开始构建深度学习模型,而是更多地依赖于将预训练模型适应于他们定制的任务。然而,强大的预训练模型可能会被用于不道德或非法的任务,例如隐私推断和不安全内容生成。在本文中,我们介绍了一种先驱的学习范式,即非微调学习,它可以防止预训练模型被微调到不端任务中,同时保持其在原始任务上的性能。为了实现这个目标,我们提出了SOPHON,一个保护框架,它强化了给定的预训练模型对于预定义的受限域的微调具有抵抗力。然而,这是具有挑战性的,因为对手可能采用各种复杂的微调策略。受模型无关元学习的启发,我们通过设计复杂的微调模拟和微调评估算法来克服这个困难。此外,我们精心设计了优化过程,以将预训练模型困在难以逃脱的局部最优解中,关于受限域。我们在两个深度学习模式(分类和生成)、七个受限域和六个模型架构上进行了广泛的实验,以验证SOPHON的有效性。实验结果验证了微调SOPHON受保护的模型会产生与从头开始训练相当甚至更大的开销。此外,我们确认了SOPHON对于三种微调方法、五种优化器、各种学习率和批量大小的鲁棒性。SOPHON可以帮助推动更进一步的安全和负责任的AI研究。
  • 图表
  • 解决问题
    如何保护预训练模型免受非法或不道德的微调任务的滥用?
  • 关键思路
    提出了一种非微调学习的学习范式,称为SOPHON,通过模拟和评估微调策略,将预训练模型限制在预定义的受限领域内。
  • 其它亮点
    使用SOPHON保护的模型微调的开销与从头开始训练的开销相当甚至更大。实验结果表明,SOPHON对三种微调方法、五种优化器、各种学习率和批大小都很鲁棒。
  • 相关研究
    最近的相关研究包括《Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping》和《Adversarial Training for Free!》。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论