- 简介长上下文建模能力受到了广泛关注,导致出现了具有超长上下文窗口的大型语言模型(LLMs)。同时,用于评估长上下文LLMs的基准测试逐渐在赶超。然而,现有的基准测试采用无关的噪音文本来人为地扩展测试用例的长度,偏离了长上下文应用的真实场景。为了弥合这一差距,我们提出了一个新的长上下文基准测试,名为Loong,通过扩展的多文档问答(QA)与现实场景相一致。与典型的文档QA不同,Loong的测试用例中,每个文档都与最终答案相关,忽略任何一个文档都会导致答案失败。此外,Loong引入了四种类型的任务,涵盖了一系列上下文长度:聚光定位、比较、聚类和推理链,以促进对长上下文理解的更真实和全面的评估。广泛的实验表明,现有的长上下文语言模型仍具有相当大的增强潜力。检索增强生成(RAG)表现不佳,证明Loong可以可靠地评估模型的长上下文建模能力。
- 图表
- 解决问题Loong论文旨在提出一个新的长文本理解基准测试,以评估大语言模型在现实场景中的长文本理解能力。
- 关键思路Loong测试基于扩展的多文档问答,每个文档都与最终答案相关,测试模型在长文本理解任务中的性能。
- 其它亮点Loong测试引入了四种任务类型,包括聚焦定位、比较、聚类和推理链,以评估模型在不同长度的上下文中的性能。实验结果表明现有的大语言模型仍有提升空间,检索增强生成(RAG)表现不佳。
- 最近的相关研究包括Turing-NLG、GPT-3等大型语言模型的发展和应用,以及其他基准测试的提出,如LAMBADA、SuperGLUE、GloVe等。


提问交流