- 简介大型语言模型(LLMs)展示了惊人的上下文学习(ICL)能力,即在给定测试输入的情况下,LLM与几个输入-输出对(演示)一起进行预测。然而,演示的包含导致了自我关注机制计算开销的二次增加。现有的解决方案尝试将漫长的演示压缩成紧凑的向量。然而,它们通常需要特定任务的重新训练,或者牺牲LLM的上下文学习性能。为了解决这些挑战,我们提出了元演示压缩(MEND),其中语言模型学习将任何漫长的演示压缩成向量,而无需为新的下游任务重新训练。我们利用知识蒸馏来增强MEND和LLM之间的对齐,同时实现效率和有效性。MEND通过两阶段的培训过程获得了压缩演示的元知识,包括元蒸馏预训练和微调。通过使用仅解码器(GPT-2)和编码器解码器(T5)进行的七个不同ICL任务分区的全面评估证明了MEND的能力。它不仅匹配,而且经常优于香草ICL以及其他最先进的压缩模型,同时显着减少了计算需求。这种创新承诺增强大型语言模型的可扩展性和效率,以便进行实际部署。
-
- 图表
- 解决问题论文旨在解决在上下文学习中使用演示会导致计算开销增加的问题,提出了Meta dEmonstratioN Distillation(MEND)方法,旨在通过两阶段训练过程来将演示压缩为向量以提高效率和性能。
- 关键思路MEND使用元知识将演示压缩为向量,而无需针对新的下游任务进行重新训练。它使用知识蒸馏来提高MEND和LLM之间的对齐,同时提高效率和性能。
- 其它亮点论文通过在七个不同的上下文学习任务上进行全面评估,证明了MEND的有效性和高效性。它不仅匹配了基线模型的性能,而且经常优于其他最先进的压缩模型。此外,论文还开源了代码。
- 在这个领域中的其他相关研究包括:'Distilling Task-Specific Knowledge from BERT into Simple Neural Networks'和'Meta-Learning with Implicit Gradients'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流