LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks

2024年12月19日
  • 简介
    本文介绍了LongBench v2,这是一个旨在评估大型语言模型(LLM)处理需要深刻理解和推理的长上下文问题能力的基准测试。LongBench v2 包含503个具有挑战性的选择题,涵盖了从8千到200万字的文本,涉及六大主要任务类别:单文档问答、多文档问答、长上下文学习、长对话历史理解、代码仓库理解以及长结构化数据理解。为了确保其广泛性和实用性,我们从近100位具有不同专业背景的高度受教育个体中收集了数据。我们采用了自动化和人工审查相结合的方式以保持高质量和高难度,结果是人类专家在15分钟的时间限制下仅能达到53.7%的准确率。我们的评估显示,表现最好的模型在直接回答问题时,准确率仅为50.1%。相比之下,包含更长推理过程的o1-preview模型达到了57.7%的准确率,超过了人类基线4个百分点。这些结果突显了增强推理能力和扩展推理时间计算的重要性,以应对LongBench v2中的长上下文挑战。该项目可在https://longbench2.github.io获取。
  • 图表
  • 解决问题
    论文试图解决长文本上下文处理的问题,评估大型语言模型(LLMs)在处理需要深度理解和推理的长文档任务中的表现。这是一个相对较新的问题,因为随着LLMs的发展,如何有效处理和理解长文本变得越来越重要。
  • 关键思路
    关键思路是设计一个名为LongBench v2的基准测试,该基准包含503个复杂的多项选择题,涵盖单文档问答、多文档问答、长上下文学习等六个主要任务类别。这些任务的上下文长度从8k到2M单词不等,旨在评估模型在处理长文本时的理解和推理能力。相比现有研究,LongBench v2不仅增加了任务的复杂性和上下文长度,还通过自动化和人工审查确保了数据集的质量和难度。
  • 其它亮点
    论文的亮点包括:1) 数据集由近100位具有不同专业背景的高学历个体收集,确保了多样性和实用性;2) 人类专家在15分钟内只能达到53.7%的准确率,突显了任务的挑战性;3) 实验结果显示,增强推理能力和扩展推理时间计算资源对于提高模型性能至关重要;4) o1-preview模型通过更长的推理过程,达到了57.7%的准确率,超过了人类基线;5) 项目已开源,代码和数据集可在https://longbench2.github.io获得,为后续研究提供了宝贵资源。
  • 相关研究
    最近在这个领域中,还有其他相关研究,例如:1)《Evaluating Large Language Models on Long-Document Understanding》探讨了长文档理解的评估方法;2)《Scaling Laws for Autoregressive Generative Modeling》研究了生成模型的规模对性能的影响;3)《Challenges in Long-Range Contextual Reasoning for LLMs》分析了LLMs在长范围上下文推理中的挑战。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论