BiLD: Bi-directional Logits Difference Loss for Large Language Model Distillation

2024年06月19日
  • 简介
    近年来,大型语言模型(LLMs)在各种自然语言处理(NLP)任务中展现出了出色的能力。然而,这种卓越的性能往往伴随着参数大小的增加,给广泛部署带来了重大挑战。知识蒸馏(KD)通过将知识从大型教师模型转移到较小的学生模型来提供解决方案。在本文中,我们探讨了在逻辑层面上对LLMs进行任务特定的蒸馏。我们的研究发现,微调后的LLMs的逻辑层表现出比视觉模型更极端的长尾分布,长尾中的“噪声”影响了蒸馏性能。此外,现有的逻辑蒸馏方法通常难以有效利用逻辑的内部排名信息。为了解决这些问题,我们提出了双向逻辑差异(BiLD)损失。BiLD损失通过仅利用前$k$个教师和学生逻辑来过滤掉长尾噪声,并通过构建逻辑差异来利用内部逻辑排名信息。为了评估BiLD损失,我们使用两种类型的LLMs在13个数据集上进行了全面的实验。我们的结果表明,仅使用前8个逻辑的BiLD损失优于监督微调(SFT),纯KL损失和来自NLP和CV领域的其他五种蒸馏方法。
  • 图表
  • 解决问题
    本文旨在解决在使用大型语言模型(LLMs)时,参数规模增加导致部署困难的问题。为此,通过知识蒸馏(KD)将知识从大型教师模型转移到较小的学生模型。
  • 关键思路
    本文提出了一种新的知识蒸馏方法——双向对数差异(BiLD)损失。该方法通过利用顶部$k$教师和学生对数,过滤掉长尾噪声,并利用内部对数排名信息构建对数差异,从而更有效地利用对数。
  • 其它亮点
    本文通过在13个数据集上使用两种类型的LLMs进行全面实验,证明了BiLD损失的有效性。实验表明,BiLD损失仅使用前8个对数,就优于监督微调(SFT)、vanilla KL损失和其他五种来自NLP和CV领域的蒸馏方法。
  • 相关研究
    最近的相关研究还包括:《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》、《TinyBERT: Distilling BERT for Natural Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论