Multi-Stage Balanced Distillation: Addressing Long-Tail Challenges in Sequence-Level Knowledge Distillation

2024年06月19日
  • 简介
    大型语言模型(LLMs)在各种自然语言处理任务中取得了显著进展,但是部署它们仍然需要大量的计算资源。知识蒸馏(KD)是一种有前途的解决方案,可以将更大的教师LLMs的能力转移到更紧凑的学生模型中。特别是,序列级KD不仅可以蒸馏最终结果,而且可以蒸馏基于理性的推理过程,显示出增强学生推理能力的巨大潜力。然而,当前的方法在长尾数据分布下进行序列级KD时存在困难,从而对稀疏表示的领域的泛化产生不利影响。我们引入了多阶段平衡蒸馏(BalDistill)框架,该框架在固定的计算预算内迭代地平衡训练数据。通过动态选择代表性的头域示例和合成尾域示例,BalDistill在不同的长尾数据集上实现了最先进的性能,提高了蒸馏模型的效率和效果。
  • 作者讲解
  • 图表
  • 解决问题
    多阶段平衡蒸馏(BalDistill)框架的提出,旨在解决当前方法在长尾数据分布下进行序列级知识蒸馏时的问题。
  • 关键思路
    BalDistill框架通过动态选择代表性的头部领域示例和合成尾部领域示例,在固定的计算预算内迭代平衡训练数据,从而实现长尾数据分布下序列级知识蒸馏的高效性和有效性。
  • 其它亮点
    论文使用了多个长尾数据集进行实验,证明了BalDistill框架的优越性能,并且开源了代码。此外,BalDistill框架还能够提高学生模型的推理能力,比仅蒸馏最终结果的方法更具优势。
  • 相关研究
    近期的相关研究包括《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》、《Distilling Crosslingual Knowledge via Unsupervised Parallel Sentence Mining》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问