Recitation over Reasoning: How Cutting-Edge Language Models Can Fail on Elementary School-Level Reasoning Problems?

2025年04月01日
  • 简介
    近年来,大语言模型(LLM)基准测试的难度从小学水平迅速提升到前沿问题,为研究人员编织了一个奇迹般的前景:我们似乎距离超越人类智能仅有一步之遥。然而,大语言模型表现出的卓越推理能力是否真的符合人类标准的真正智能,还是它们仅仅在复述训练过程中从互联网上见过的答案?为了研究这一问题,我们提出了 RoR-Bench,这是一个全新的、多模态基准测试工具,用于检测大语言模型在面对简单推理问题但条件略有变化时的复述行为,并基于该基准进行了实证分析。令人惊讶的是,我们发现现有的最先进大语言模型普遍表现出极其严重的复述倾向;通过仅改变条件中的一个短语,顶级模型(如 OpenAI-o1 和 DeepSeek-R1)在小学水平的算术和推理问题上的表现可能会下降 60%。这一发现对大语言模型研究社区敲响了警钟,促使我们重新评估当前最先进大语言模型的真实智能水平。
  • 作者讲解·1
  • 图表
  • 解决问题
    该论文试图评估大语言模型(LLMs)是否具备真正的推理能力,还是仅仅通过记忆训练数据中的解决方案来回答问题。这是一个重要的问题,因为当前许多研究可能过高估计了LLMs的智能水平。
  • 关键思路
    论文提出了一种新的多模态基准测试工具RoR-Bench,用于检测LLMs在面对条件稍作修改的简单推理问题时是否会表现出‘背诵’行为。相比传统的基准测试,这种方法更能揭示模型对新情境的适应能力,而非单纯依赖记忆。
  • 其它亮点
    实验结果表明,即使是顶尖的LLMs(如OpenAI-o1和DeepSeek-R1),在条件稍作改变的情况下,其表现可能会下降60%。这说明现有模型在泛化能力和真正推理能力方面仍有较大不足。此外,论文强调了重新评估LLMs智能水平的重要性,并呼吁社区关注这一问题。目前,论文未提及代码开源情况,但未来可以进一步探索如何改进模型的泛化能力。
  • 相关研究
    近年来,关于LLMs推理能力的研究逐渐增多。例如,《Evaluating Large Language Models Trained on Code》探讨了代码生成任务中的推理能力;《Chain of Thought Prompting Elicits Reasoning in Large Language Models》提出了链式思维提示以提升推理能力;《Measuring Abstract Reasoning in Neural Models》则研究了神经模型的抽象推理能力。这些研究都与本文的主题密切相关,但本文的独特之处在于专注于检测‘背诵’行为的影响。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问