Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

简介

大型语言模型在实际应用中被广泛使用，通常需要对大量文档进行推理。该领域的一个令人兴奋的发展是具有扩展上下文功能的模型，其中一些模型可以容纳超过2百万个标记。这种长上下文模型的能力在生产系统中仍然存在不确定性，这促使我们需要在真实世界的用例中对它们的性能进行基准测试。我们通过提出SWiM来应对这一挑战，这是一个评估框架，解决了标准测试的局限性。我们在八个长上下文模型上测试了该框架，发现即使是像GPT-4和Claude 3 Opus这样的强模型在上下文窗口中间存在信息时（中间信息丢失效应），性能也会下降。此外，除了我们的基准测试，我们还提出了medoid投票，这是一种简单但有效的无需训练的方法，通过多次生成回答并每次随机排列上下文中的文档并选择中心答案来缓解这种效应。我们在单个文档问答任务上评估了medoid投票，实现了高达24％的准确率提升。我们的代码可在https://github.com/snorkel-ai/long-context-eval上找到。
图表
解决问题

论文旨在解决长文本语言模型在实际应用中性能下降的问题，提出了SWiM评估框架和medoid投票方法。
关键思路

SWiM评估框架考虑了长文本模型在处理中间信息时的性能下降问题，medoid投票方法则是一种简单有效的训练无关方法，可以提高单文档QA任务的准确性。
其它亮点

论文在8个长文本模型上进行了实验，并发现即使是性能较强的模型如GPT-4和Claude 3 Opus，在处理中间信息时也会出现性能下降。medoid投票方法可以提高单文档QA任务的准确性，最高可达24%。论文提供了开源代码。
相关研究

最近相关研究包括文本生成、长文本理解、自然语言推理等方向。

Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

评论