Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

简介

LLMs和RAG系统现在可以处理数百万个或更多的输入标记。然而，在长上下文任务中评估这些系统的输出质量仍然具有挑战性，因为像“大海捞针”这样的任务缺乏复杂性。在这项工作中，我们认为摘要可以在这种评估中发挥核心作用。我们设计了一个过程来合成文档的“大海捞针”，确保特定的洞见在文档中重复出现。然后，“大海捞针摘要”（SummHay）任务要求系统处理“大海捞针”并生成给定查询的摘要，该摘要识别相关的洞见并精确引用来源文档。由于我们精确知道大海捞针摘要中应该出现什么洞见以及应该引用哪些文档，因此我们实现了一种高度可重复的自动评估，可以根据覆盖范围和引用两个方面对摘要进行评分。我们在两个领域（对话，新闻）中生成大海捞针，并对10个LLM和相应的50个RAG系统进行大规模评估。我们的研究结果表明，SummHay对于当前系统来说是一个开放的挑战，即使系统提供了文档相关性的Oracle信号，也比我们对人类表现的估计（56％）低10个以上的联合分数。没有检索器，像GPT-4o和Claude 3 Opus这样的长上下文LLM在SummHay上的得分低于20％。我们展示了SummHay还可以用于研究企业RAG系统和长上下文模型中的位置偏差。我们希望未来的系统可以在SummHay上达到甚至超过人类表现。
图表
解决问题

评估长文本任务的输出质量仍然具有挑战性，本文提出了一种新的评估方法SummHay，要求系统在处理大量文档的情况下生成摘要，准确地引用源文件，并识别相关的见解。
关键思路

本文提出了一种新的评估方法SummHay，通过合成重复特定见解的文档集来评估系统对长文本任务的处理能力，并实施高度可重复的自动评估来评分摘要的覆盖率和引用。
其它亮点

本文设计了一个称为SummHay的新的评估任务，通过合成重复特定见解的文档集来评估系统对长文本任务的处理能力。同时，本文还进行了大规模的实验评估了10个LLMs和对应的50个RAG系统。结果表明，SummHay是当前系统面临的一个开放性挑战，即使系统提供了文档相关性的Oracle信号，也会比我们估计的人类表现（56％）低10个百分点以上。同时，本文还探讨了SummHay如何用于研究企业RAG系统和长文本模型的位置偏差。
相关研究

最近的相关研究包括使用预训练语言模型进行长文本摘要，以及使用RAG模型进行文档生成和摘要。

Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

评论