LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression

2024年03月19日
  • 简介
    本文着重于任务不可知的提示压缩,以提高其通用性和效率。考虑到自然语言中的冗余性,现有方法通过根据从因果语言模型(如LLaMa-7B)获得的信息熵来删除标记或词汇单元来压缩提示。挑战在于信息熵可能是次优的压缩度量:(i)它仅利用单向上下文,可能无法捕捉提示压缩所需的所有关键信息;(ii)它与提示压缩目标不一致。为了解决这些问题,我们提出了一种数据蒸馏过程,从LLM中提取知识以压缩提示,同时引入了一个抽取式文本压缩数据集。我们将提示压缩形式化为标记分类问题,以保证压缩后的提示对原始提示的忠实度,并使用Transformer编码器作为基础架构,从完全双向上下文中捕获提示压缩所需的所有关键信息。我们的方法通过明确学习压缩目标,使用更小的模型(如XLM-RoBERTa-large和mBERT),从而导致更低的延迟。 我们在域内和域外数据集上评估了我们的方法,包括MeetingBank、LongBench、ZeroScrolls、GSM8K和BBH。尽管模型规模较小,但我们的模型显示出比强基线更显著的性能提升,并展示了在不同LLM上的强健泛化能力。此外,我们的模型比现有的提示压缩方法快3倍至6倍,同时在2倍至5倍的压缩比下加速端到端延迟1.6倍至2.9倍。
  • 作者讲解·1
  • 图表
  • 解决问题
    本文旨在通过任务无关的提示压缩来提高通用性和效率。现有方法通过根据从因果语言模型(如LLaMa-7B)获得的信息熵来删除令牌或词汇单元来压缩提示。然而,信息熵可能是一个次优的压缩度量,因为它只利用单向上下文,可能无法捕捉压缩提示所需的所有关键信息。
  • 关键思路
    为了解决这些问题,本文提出了一种数据蒸馏过程,以从LLM中提取知识来压缩提示,同时引入了一种抽取式文本压缩数据集。我们将提示压缩形式化为令牌分类问题,以保证压缩提示对原始提示的忠实性,并使用Transformer编码器作为基础架构,从完全双向上下文中捕获所有必要的提示压缩信息。
  • 其它亮点
    本文的方法在MeetingBank、LongBench、ZeroScrolls、GSM8K和BBH等领域内和领域外数据集上进行了评估,表现出显著的性能提升,证明了其在不同LLM上具有强大的泛化能力。此外,我们的模型比现有的提示压缩方法快3倍-6倍,同时在2倍-5倍的压缩比下加速了端到端延迟1.6倍-2.9倍。
  • 相关研究
    最近的相关研究包括《Leveraging Pre-trained Checkpoints for Sequence Generation Tasks》、《Sequence-to-Sequence Pre-training with Paraphrasing》和《Text Compression with Bi-directional LSTM》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问