- 简介最近知识蒸馏(KD)的进展使得更小的学生模型可以接近更大的教师模型的性能。然而,流行的方法,如监督式KD和在线策略KD,在实际场景中受到了师生之间知识差距的不利影响。监督式KD受到了静态数据集训练和最终学生生成输出的推理之间分布不匹配的困扰。相反,在线策略KD使用学生生成的样本进行训练,可能会出现教师模型不熟悉的低质量训练样本,导致不准确的教师反馈。为了解决这些限制,我们引入了一种新的方法——推测性知识蒸馏(SKD),它利用学生和教师模型之间的合作,在对齐学生推理时分布的同时,即时生成高质量的训练数据。在SKD中,学生提出令牌,教师根据自己的分布替换排名不高的令牌,自适应地传递高质量的知识。我们在各种文本生成任务上评估了SKD,包括翻译、摘要、数学和指令跟随,并展示了SKD在不同领域、数据大小和模型初始化策略下始终优于现有的KD方法。
- 图表
- 解决问题本文旨在解决知识蒸馏中教师模型和学生模型之间存在的知识差距问题,提出了一种新的方法SKD。
- 关键思路SKD方法通过学生模型提出标记,教师模型根据自身的分布替换排名较低的标记,从而生成高质量的训练数据,同时与学生推理时的分布相一致,实现知识的自适应转移。
- 其它亮点本文提出的SKD方法在多个文本生成任务中进行了评估,包括翻译、摘要、数学和指令遵循等,表现出了比现有知识蒸馏方法更好的性能。实验结果表明,SKD方法在不同领域、数据规模和模型初始化策略下均表现出一致的优势。
- 近期的相关研究包括基于知识蒸馏的模型压缩、使用自监督学习进行知识蒸馏等。
沙发等你来抢
去评论
评论
沙发等你来抢