AbsenceBench: Language Models Can't Tell What's Missing

2025年06月13日
  • 简介
    大型语言模型(LLMs)越来越能够处理长输入,并在其中定位特定信息,这一点通过它们在“大海捞针”(Needle in a Haystack, NIAH)测试中的表现得到了证明。然而,尽管这些模型在回忆令人惊讶的信息方面表现出色,但它们仍然难以识别明显被遗漏的信息。为此,我们引入了 AbsenceBench,用于评估 LLMs 在三个领域中检测缺失信息的能力:数值序列、诗歌和 GitHub 拉取请求(Pull Requests)。AbsenceBench 要求模型根据原始文档和经过编辑的文档,判断哪些部分是故意被移除的。尽管这些任务看似简单,我们的实验结果显示,即使是像 Claude-3.7-Sonnet 这样的最先进模型,在平均上下文长度仅为 5K token 的情况下,其 F1 分数也仅为 69.6%。我们的分析表明,这种较差的表现源于一个根本性的限制:Transformer 的注意力机制很难关注到文档中的“空白”,因为这些缺失的部分并不对应于任何可以关注的具体键(key)。总体而言,我们的研究结果和分析提供了一个案例研究,展示了模型已经超人类的任务(如 NIAH)与模型意外失效的任务(如 AbsenceBench)之间的紧密联系。
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLMs)在检测文档中缺失信息时表现不佳的问题。这是一个新问题,与传统的‘针尖寻物’(NIAH)任务不同,AbsenceBench专注于评估模型对‘缺席信息’的识别能力。
  • 关键思路
    关键思路是通过引入AbsenceBench基准测试来量化LLMs在检测缺失信息方面的性能。该基准涵盖了三个领域:数值序列、诗歌和GitHub拉取请求,并要求模型比较原始文档和编辑后的文档以识别哪些部分被移除。相比现有研究,这篇论文首次系统地探讨了Transformer架构在处理‘信息缺席’时的局限性。
  • 其它亮点
    实验设计严谨,使用了5K令牌的上下文长度,并测试了最先进的模型(如Claude-3.7-Sonnet)。结果显示这些模型在AbsenceBench上的F1分数仅为69.6%,远低于预期。此外,论文深入分析了Transformer注意力机制无法有效关注‘空白’的根本原因。目前尚无开源代码,但未来可进一步研究如何改进注意力机制或开发专门针对缺失信息检测的新模型。
  • 相关研究
    相关研究包括:1) ‘Needle in a Haystack’测试,用于评估LLMs从长文本中提取特定信息的能力;2) 文章提到的其他工作如《Transformers Fail to Detect Missing Information》和《Beyond Memorization: Can LLMs Understand What’s Not There?》;3) 针对文本生成和修复的研究,例如《Text Infilling with Pre-trained Language Models》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论