- 简介大型语言模型(LLMs)在各种自然语言处理任务中取得了显著进展,但是部署它们仍然需要大量的计算资源。知识蒸馏(KD)是一种有前途的解决方案,可以将更大的教师LLMs的能力转移到更紧凑的学生模型中。特别是,序列级KD不仅可以蒸馏最终结果,而且可以蒸馏基于理性的推理过程,显示出增强学生推理能力的巨大潜力。然而,当前的方法在长尾数据分布下进行序列级KD时存在困难,从而对稀疏表示的领域的泛化产生不利影响。我们引入了多阶段平衡蒸馏(BalDistill)框架,该框架在固定的计算预算内迭代地平衡训练数据。通过动态选择代表性的头域示例和合成尾域示例,BalDistill在不同的长尾数据集上实现了最先进的性能,提高了蒸馏模型的效率和效果。
-
- 图表
- 解决问题多阶段平衡蒸馏(BalDistill)框架的提出,旨在解决当前方法在长尾数据分布下进行序列级知识蒸馏时的问题。
- 关键思路BalDistill框架通过动态选择代表性的头部领域示例和合成尾部领域示例,在固定的计算预算内迭代平衡训练数据,从而实现长尾数据分布下序列级知识蒸馏的高效性和有效性。
- 其它亮点论文使用了多个长尾数据集进行实验,证明了BalDistill框架的优越性能,并且开源了代码。此外,BalDistill框架还能够提高学生模型的推理能力,比仅蒸馏最终结果的方法更具优势。
- 近期的相关研究包括《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》、《Distilling Crosslingual Knowledge via Unsupervised Parallel Sentence Mining》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流