Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation

2024年05月31日
  • 简介
    我们探讨了大型语言模型中长文本能力的应用,以从整本书中创建合成阅读理解数据。之前的构建这种数据集的尝试依赖于众包,但是现在拥有100万个或更多标记上下文大小的transformer使得完全自动化的方法成为可能。我们的目标是测试LLM分析、理解和推理长篇文本所需的问题的能力,例如涉及角色发展、更广泛的主题或故事中早期行动的后果的问题。我们提出了一个全面的自动数据生成流程,包括问题生成、回答和使用“评估器”进行模型评分。我们发现,相对方法,即在模型之间比较答案并使用Bradley-Terry模型进行排名,提供了比单独评分答案的绝对评分器更一致和有区别的评分机制。我们还表明,来自不同模型系列的LLM在其评分中产生了适度的一致性。我们使用手动策划的NarrativeQA数据集来验证我们的方法,其中我们的评估器显示出与人类判断的优秀一致性,甚至发现数据集中的错误。使用我们的自动评估方法,我们展示了使用整本书作为上下文相比基线无上下文(仅参数化知识)和基于检索的方法具有更好的阅读理解表现。
  • 图表
  • 解决问题
    论文试图通过使用长文本语言模型的长上下文能力来创建合成阅读理解数据集,以测试这些模型在需要详细理解长文本的问题上的能力。
  • 关键思路
    论文提出了一种完整的自动数据生成流程,包括问题生成、回答和模型评分,使用相对评分方法和Bradley-Terry模型进行评分,证明使用整本书作为上下文可以比基线无上下文和基于检索的方法更好地提高阅读理解性能。
  • 其它亮点
    论文使用长文本语言模型自动生成阅读理解数据集,避免了人工标注的工作量。相对评分方法比绝对评分方法更加一致和区分度更高。使用NarrativeQA数据集进行实验,证明自动评估方法与人类判断具有很好的一致性,并且还能够发现数据集中的错误。
  • 相关研究
    最近的相关研究包括使用语言模型生成阅读理解数据集的工作,以及使用长上下文模型进行阅读理解的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论