LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression

向作者提问

NEW

简介

本文着重于任务不可知的提示压缩，以提高其通用性和效率。考虑到自然语言中的冗余性，现有方法通过根据从因果语言模型（如LLaMa-7B）获得的信息熵来删除标记或词汇单元来压缩提示。挑战在于信息熵可能是次优的压缩度量：（i）它仅利用单向上下文，可能无法捕捉提示压缩所需的所有关键信息；（ii）它与提示压缩目标不一致。为了解决这些问题，我们提出了一种数据蒸馏过程，从LLM中提取知识以压缩提示，同时引入了一个抽取式文本压缩数据集。我们将提示压缩形式化为标记分类问题，以保证压缩后的提示对原始提示的忠实度，并使用Transformer编码器作为基础架构，从完全双向上下文中捕获提示压缩所需的所有关键信息。我们的方法通过明确学习压缩目标，使用更小的模型（如XLM-RoBERTa-large和mBERT），从而导致更低的延迟。我们在域内和域外数据集上评估了我们的方法，包括MeetingBank、LongBench、ZeroScrolls、GSM8K和BBH。尽管模型规模较小，但我们的模型显示出比强基线更显著的性能提升，并展示了在不同LLM上的强健泛化能力。此外，我们的模型比现有的提示压缩方法快3倍至6倍，同时在2倍至5倍的压缩比下加速端到端延迟1.6倍至2.9倍。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本文旨在通过任务无关的提示压缩来提高通用性和效率。现有方法通过根据从因果语言模型（如LLaMa-7B）获得的信息熵来删除令牌或词汇单元来压缩提示。然而，信息熵可能是一个次优的压缩度量，因为它只利用单向上下文，可能无法捕捉压缩提示所需的所有关键信息。
关键思路

为了解决这些问题，本文提出了一种数据蒸馏过程，以从LLM中提取知识来压缩提示，同时引入了一种抽取式文本压缩数据集。我们将提示压缩形式化为令牌分类问题，以保证压缩提示对原始提示的忠实性，并使用Transformer编码器作为基础架构，从完全双向上下文中捕获所有必要的提示压缩信息。
其它亮点

本文的方法在MeetingBank、LongBench、ZeroScrolls、GSM8K和BBH等领域内和领域外数据集上进行了评估，表现出显著的性能提升，证明了其在不同LLM上具有强大的泛化能力。此外，我们的模型比现有的提示压缩方法快3倍-6倍，同时在2倍-5倍的压缩比下加速了端到端延迟1.6倍-2.9倍。
相关研究

最近的相关研究包括《Leveraging Pre-trained Checkpoints for Sequence Generation Tasks》、《Sequence-to-Sequence Pre-training with Paraphrasing》和《Text Compression with Bi-directional LSTM》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问