Adversarial Sparse Teacher: Defense Against Distillation-Based Model Stealing Attacks Using Adversarial Examples

2024年03月08日
  • 简介
    知识蒸馏(KD)有助于将先进的教师模型的区分能力传递给更简单的学生模型,确保提高性能而不影响准确性。它也被用于模型窃取攻击,其中对手使用KD来模仿教师模型的功能。该领域的最新发展受到吝啬教师模型的影响,该模型提供了实证分析,显示稀疏输出可以显着降低学生模型的性能。为了解决知识产权泄露的风险,我们的工作引入了一种训练教师模型的方法,该方法本质上保护其对数,受“恶毒教师”概念的影响。与现有方法不同,我们将对抗性示例的稀疏输出与标准训练数据结合起来,以增强教师对抗学生蒸馏的防御能力。我们的方法仔细减少了原始输出与对抗性扰动输出之间的相对熵,使模型能够产生对抗性对数,对总体性能的影响最小。源代码将很快公开发布。
  • 图表
  • 解决问题
    本论文旨在解决知识蒸馏中存在的知识泄漏风险问题,提出了一种保护logits的教师模型训练方法,并将稀疏输出的对抗样本与标准训练数据相结合,以增强教师模型对学生蒸馏的防御能力。
  • 关键思路
    本论文提出了一种保护logits的教师模型训练方法,通过将稀疏输出的对抗样本与标准训练数据相结合,来增强教师模型对学生蒸馏的防御能力。
  • 其它亮点
    本文的实验结果表明,所提出的方法能够在保证模型性能的同时有效地保护logits,从而提高了模型的安全性。此外,本文还开源了源代码,为后续的研究提供了便利。
  • 相关研究
    与本文相关的研究包括Stingy Teacher模型以及Nasty Teacher概念。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论