Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?

Sohee Yang ,
Nora Kassner ,
Elena Gribovskaya ,
Sebastian Riedel ,
Mor Geva
2024年11月25日
  • 简介
    我们评估了大型语言模型(LLMs)在回答多跳查询时隐式回忆和组合事实的能力,例如“斯嘉丽·约翰逊出生那年,夏季奥运会的举办国是”。评估这一能力的一个主要挑战是,LLMs可能通过在相同的训练序列中遇到头实体“斯嘉丽·约翰逊”和答案实体“美国”而发展出捷径,或者仅仅基于频率优先级来猜测答案。为了防止这些捷径,我们排除了预训练语料库中头实体和答案实体共同出现的测试查询。通过仔细选择关系和事实,并系统地移除模型可能猜测答案或利用部分匹配的情况,我们构建了一个评估数据集SOCRATES(无捷径的隐式推理)。我们观察到,LLMs在不利用捷径的情况下展示了有希望的隐式多跳推理能力,但仅限于某些类型的查询。对于需要隐式回忆国家作为中间答案的查询,最佳模型达到了80%的隐式组合能力,但对于回忆年份的查询,这一比例降至5%。与链式思维组合能力的比较突显了模型隐式推理和显式推理能力之间的显著差距。分析显示,在隐式组合能力较高的查询中,中间答案的隐式表示构建得更频繁,并且在预训练过程中出现了隐式多跳推理。
  • 图表
  • 解决问题
    该论文旨在评估大型语言模型(LLMs)在回答多跳查询时,是否能够潜回忆并组合事实,而不会依赖于训练数据中的捷径或频率先验。这是一个新的挑战,因为之前的研究可能没有完全排除这些捷径的影响。
  • 关键思路
    论文通过构建一个名为SOCRATES的数据集来解决这一问题,该数据集系统地排除了头实体和答案实体在同一训练序列中出现的情况。这种方法确保了模型必须真正地进行多跳推理,而不是依赖于记忆或猜测。与现有的研究相比,这种做法更加严格地测试了模型的潜在推理能力。
  • 其它亮点
    论文发现,LLMs在某些类型的多跳查询中表现出色,例如涉及国家作为中间答案的查询,准确率可达80%,但在涉及年份的查询中表现较差,准确率仅为5%。此外,论文还比较了隐式推理和显式推理(如Chain-of-Thought)的能力,揭示了两者之间的显著差距。研究还发现,在高潜组合性查询中,模型更频繁地构建中间答案的隐表示。这些发现为理解LLMs的推理机制提供了有价值的洞见。
  • 相关研究
    近期在这个领域的一些相关研究包括: 1. "Chain of Thought Prompting Elicits Reasoning in Large Language Models" - 这篇论文探讨了如何通过提示链来引导LLMs进行显式推理。 2. "Evaluating the Reasoning Abilities of Neural Models with Compositional Logic Puzzles" - 该研究通过逻辑谜题评估了神经模型的组合推理能力。 3. "Probing the Compositionality of Transformers" - 这篇论文分析了Transformer模型在组合任务上的表现,探讨了其内部机制。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论