- 简介大型语言模型 (LLMs) 在各种任务中展现出了令人印象深刻的能力,但它们庞大的参数规模限制了它们在资源受限的环境中的适用性。知识蒸馏 (KD) 通过将大型教师模型的专业知识转移给紧凑的学生模型,提供了一种可行的解决方案。然而,传统的 KD 技术在应用于 LLMs 时面临特定的挑战,包括无法访问 LLM 输出、显著的教师-学生容量差距和继承的误校准问题。在这项工作中,我们提出了 PLaD,一种新颖的基于偏好的 LLM 蒸馏框架。PLaD 利用教师-学生容量差异来生成伪偏好对,其中教师输出优于学生输出。然后,PLaD 利用排名损失重新校准学生对序列可能性的估计,这将学生的注意力集中于理解输出的相对质量,而不仅仅是模仿教师。PLaD 绕过了访问教师 LLM 的内部状态的需要,解决了学生表达能力的限制,并减轻了学生误校准问题。通过对两个序列生成任务和多个 LLMs 的广泛实验,我们证明了我们提出的 PLaD 框架的有效性。
- 图表
- 解决问题论文旨在解决在资源受限情况下,如何将大型语言模型(LLMs)的专业知识转移到紧凑的学生模型中的问题。传统的知识蒸馏技术在应用于LLMs时面临特定的挑战,包括访问受限的LLM输出,显著的师生能力差距以及继承的误校准问题。
- 关键思路PLaD是一种新颖的基于偏好的LLM蒸馏框架,通过利用师生能力差异来生成伪偏好对,其中老师的输出优于学生的输出。然后,PLaD利用排序损失重新校准学生对序列可能性的估计,从而将学生的重点转向了解输出的相对质量,而不仅仅是模仿老师。
- 其它亮点论文通过在两个序列生成任务上进行大量实验,并使用各种LLMs,展示了PLaD框架的有效性。PLaD不需要访问老师LLM的内部状态,解决了学生表达能力的限制,并缓解了学生误校准问题。
- 最近的相关研究包括《Distilling Effective Supervision from Severe Label Noise》和《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》。
沙发等你来抢
去评论
评论
沙发等你来抢