Adversarial Sparse Teacher: Defense Against Distillation-Based Model Stealing Attacks Using Adversarial Examples

简介

知识蒸馏（KD）有助于将先进的教师模型的区分能力传递给更简单的学生模型，确保提高性能而不影响准确性。它也被用于模型窃取攻击，其中对手使用KD来模仿教师模型的功能。该领域的最新发展受到吝啬教师模型的影响，该模型提供了实证分析，显示稀疏输出可以显着降低学生模型的性能。为了解决知识产权泄露的风险，我们的工作引入了一种训练教师模型的方法，该方法本质上保护其对数，受“恶毒教师”概念的影响。与现有方法不同，我们将对抗性示例的稀疏输出与标准训练数据结合起来，以增强教师对抗学生蒸馏的防御能力。我们的方法仔细减少了原始输出与对抗性扰动输出之间的相对熵，使模型能够产生对抗性对数，对总体性能的影响最小。源代码将很快公开发布。
图表
解决问题

本论文旨在解决知识蒸馏中存在的知识泄漏风险问题，提出了一种保护logits的教师模型训练方法，并将稀疏输出的对抗样本与标准训练数据相结合，以增强教师模型对学生蒸馏的防御能力。
关键思路

本论文提出了一种保护logits的教师模型训练方法，通过将稀疏输出的对抗样本与标准训练数据相结合，来增强教师模型对学生蒸馏的防御能力。
其它亮点

本文的实验结果表明，所提出的方法能够在保证模型性能的同时有效地保护logits，从而提高了模型的安全性。此外，本文还开源了源代码，为后续的研究提供了便利。
相关研究

与本文相关的研究包括Stingy Teacher模型以及Nasty Teacher概念。

Adversarial Sparse Teacher: Defense Against Distillation-Based Model Stealing Attacks Using Adversarial Examples

评论