MEND: Meta dEmonstratioN Distillation for Efficient and Effective In-Context Learning

2024年03月11日
  • 简介
    大型语言模型(LLMs)展示了惊人的上下文学习(ICL)能力,即在给定测试输入的情况下,LLM与几个输入-输出对(演示)一起进行预测。然而,演示的包含导致了自我关注机制计算开销的二次增加。现有的解决方案尝试将漫长的演示压缩成紧凑的向量。然而,它们通常需要特定任务的重新训练,或者牺牲LLM的上下文学习性能。为了解决这些挑战,我们提出了元演示压缩(MEND),其中语言模型学习将任何漫长的演示压缩成向量,而无需为新的下游任务重新训练。我们利用知识蒸馏来增强MEND和LLM之间的对齐,同时实现效率和有效性。MEND通过两阶段的培训过程获得了压缩演示的元知识,包括元蒸馏预训练和微调。通过使用仅解码器(GPT-2)和编码器解码器(T5)进行的七个不同ICL任务分区的全面评估证明了MEND的能力。它不仅匹配,而且经常优于香草ICL以及其他最先进的压缩模型,同时显着减少了计算需求。这种创新承诺增强大型语言模型的可扩展性和效率,以便进行实际部署。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决在上下文学习中使用演示会导致计算开销增加的问题,提出了Meta dEmonstratioN Distillation(MEND)方法,旨在通过两阶段训练过程来将演示压缩为向量以提高效率和性能。
  • 关键思路
    MEND使用元知识将演示压缩为向量,而无需针对新的下游任务进行重新训练。它使用知识蒸馏来提高MEND和LLM之间的对齐,同时提高效率和性能。
  • 其它亮点
    论文通过在七个不同的上下文学习任务上进行全面评估,证明了MEND的有效性和高效性。它不仅匹配了基线模型的性能,而且经常优于其他最先进的压缩模型。此外,论文还开源了代码。
  • 相关研究
    在这个领域中的其他相关研究包括:'Distilling Task-Specific Knowledge from BERT into Simple Neural Networks'和'Meta-Learning with Implicit Gradients'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问