KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches

简介

长文本能力是大型语言模型(LLMs)的重要能力，因为它减轻了人类阅读长篇文本的困难。这种能力使得复杂的任务求解成为可能，例如书籍摘要、代码辅助等传统上需要大量人力的任务。然而，基于transformer的LLMs在处理长文本输入时面临着重大挑战，这是由于KV缓存的大小不断增长以及处理长文本输入的内在复杂性。为了产生高效而又能处理长文本的模型，提出了多种效率驱动的方法，如KV缓存量化、标记丢弃、提示压缩、线性时间序列模型和混合架构等。尽管取得了这些进展，但目前还没有任何工作在一个合理的环境中全面基准测试这些方法。在本文中，我们提供了当前方法的分类法，并在七个长文本任务类别中评估了10多种最先进的方法。我们的工作揭示了许多以前未知的现象，并为未来开发长文本能力LLMs提供了见解和友好的工作台。源代码将在https://github.com/henryzhongsc/longctx_bench上提供。
图表
解决问题

如何让大型语言模型具备长文本处理的能力？
关键思路

通过评估10多种最先进的方法，提供了一种系统的分类方法，并揭示了以前未知的现象和见解，为未来长文本处理能力的发展提供了工具和思路。
其它亮点

论文提供了一个系统的分类方法，评估了10多种最先进的方法，并在7个长文本处理任务上进行了实验。论文还提供了开源代码。
相关研究

最近的相关研究包括：1. Efficient Transformers: A Survey, 2. Longformer: The Long-Document Transformer, 3. Reformer: The Efficient Transformer, 4. Big Bird: Transformers for Longer Sequences, 5. Linformer: Self-Attention with Linear Complexity

KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches

评论