Evolving Knowledge Distillation with Large Language Models and Active Learning

2024年03月11日
  • 简介
    大型语言模型(LLMs)已经在各种自然语言处理任务中展示了出色的能力。然而,它们的计算成本过高,难以承受。为了解决这个问题,以往的研究试图通过生成带注释的数据将LLMs的知识提炼到更小的模型中。然而,这些工作主要集中在直接使用LLMs进行文本生成和标注,而没有充分探索它们理解目标任务和获取有价值知识的潜力。在本文中,我们提出了EvoKD:演化知识蒸馏,它利用主动学习的概念,通过使用大型语言模型交互式增强数据生成过程,同时提高小型领域模型(学生模型)的任务能力。与以往的工作不同的是,我们积极分析学生模型的弱点,然后基于分析合成带标签的样本。此外,我们提供迭代反馈给LLMs,关于学生模型的表现,以持续构建多样化和具有挑战性的样本。在不同的NLP任务(文本分类和命名实体识别)上的实验和分析表明,EvoKD的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决大型语言模型在NLP任务中计算成本过高的问题,并提出了EvoKD方法来通过主动学习交互式地生成数据并提高小型领域模型的任务能力。
  • 关键思路
    EvoKD方法通过分析小型模型的弱点,生成标注样本,并向大型语言模型提供关于小型模型性能的反馈,以不断构建多样化和具有挑战性的样本,从而提高小型领域模型的任务能力。
  • 其它亮点
    该方法在文本分类和命名实体识别等不同的NLP任务上进行了实验和分析,证明了EvoKD的有效性。实验使用的数据集和代码也得到了公开。
  • 相关研究
    最近在这个领域中,也有一些相关的研究,例如Distilling Task-Specific Knowledge from BERT into Simple Neural Networks、Learning to Learn from Weak Supervision by Full Supervision和Interactive Language Learning by Question Answering等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问