A Survey on Knowledge Distillation of Large Language Models

2024年02月20日
  • 简介
    在大语言模型(LLM)的时代,知识蒸馏(KD)成为将领先专有LLM(如GPT-4)的先进能力转移给其开源对应物(如LLaMA和Mistral)的关键方法。此外,随着开源LLM的蓬勃发展,KD在压缩这些模型和通过将自身作为教师来促进其自我改进方面发挥着至关重要的作用。本文全面调查了KD在LLM领域中的作用,强调了其向较小模型传授高级知识的关键作用以及其在模型压缩和自我改进方面的实用性。我们的调查围绕三个基本支柱进行了精心构建:算法、技能和垂直化——全面检查了KD机制、特定认知能力的提高以及它们在不同领域的实际应用。至关重要的是,该调查探讨了数据增强(DA)和KD之间错综复杂的相互作用,说明了DA如何成为KD框架中的强大范例,以增强LLM的性能。通过利用DA生成上下文丰富、技能特定的训练数据,KD超越了传统的边界,使开源模型能够近似其专有对应物所具有的上下文熟练、道德一致性和深层语义洞察力。本文旨在为研究人员和从业者提供深入的指南,提供当前KD方法的详细概述,并提出未来的研究方向。重要的是,我们坚定支持遵守规范LLM使用的法律条款,确保KD的LLM的道德和合法应用。相关的Github存储库可在https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs上找到。
  • 作者讲解·1
  • 图表
  • 解决问题
    本论文旨在探讨知识蒸馏在大型语言模型(LLM)中的作用,包括将先进的能力从专有LLM转移到开源LLM,以及在压缩和自我提高模型方面的应用。
  • 关键思路
    知识蒸馏在LLM中的关键思路是将先进的知识从大型专有模型传递给小型开源模型,并使用数据增强(DA)生成上下文丰富、技能特定的训练数据来提高模型性能。
  • 其它亮点
    本论文通过三个基本支柱(算法、技能和垂直化)全面介绍了知识蒸馏在LLM中的作用,强调了DA在KD框架中的重要性。论文提供了实验数据和开源代码,并提出了未来的研究方向。
  • 相关研究
    该领域的相关研究包括LLM的性能提升、模型压缩和自我提高等方面的研究。其中一些论文包括“LLaMA: Large Language Model Anonymization”和“Mistral: End-to-End Self-Supervised Speech Recognition”。
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问