- 简介知识蒸馏(KD)有助于将先进的教师模型的区分能力传递给更简单的学生模型,确保提高性能而不影响准确性。它也被用于模型窃取攻击,其中对手使用KD来模仿教师模型的功能。该领域的最新发展受到吝啬教师模型的影响,该模型提供了实证分析,显示稀疏输出可以显着降低学生模型的性能。为了解决知识产权泄露的风险,我们的工作引入了一种训练教师模型的方法,该方法本质上保护其对数,受“恶毒教师”概念的影响。与现有方法不同,我们将对抗性示例的稀疏输出与标准训练数据结合起来,以增强教师对抗学生蒸馏的防御能力。我们的方法仔细减少了原始输出与对抗性扰动输出之间的相对熵,使模型能够产生对抗性对数,对总体性能的影响最小。源代码将很快公开发布。
- 图表
- 解决问题本论文旨在解决知识蒸馏中存在的知识泄漏风险问题,提出了一种保护logits的教师模型训练方法,并将稀疏输出的对抗样本与标准训练数据相结合,以增强教师模型对学生蒸馏的防御能力。
- 关键思路本论文提出了一种保护logits的教师模型训练方法,通过将稀疏输出的对抗样本与标准训练数据相结合,来增强教师模型对学生蒸馏的防御能力。
- 其它亮点本文的实验结果表明,所提出的方法能够在保证模型性能的同时有效地保护logits,从而提高了模型的安全性。此外,本文还开源了源代码,为后续的研究提供了便利。
- 与本文相关的研究包括Stingy Teacher模型以及Nasty Teacher概念。
沙发等你来抢
去评论
评论
沙发等你来抢