Comment on The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

2025年06月10日
  • 简介
    Shojaee 等人(2025)报告称,大型推理模型(LRMs)在超过一定复杂度阈值的规划谜题上表现出“精度崩溃”。我们证明,他们的研究结果主要反映了实验设计的局限性,而非模型基本推理能力的失败。我们的分析揭示了三个关键问题:(1)河内塔实验可能超出模型输出令牌的限制,而模型在其输出中明确承认了这些限制;(2)作者的自动化评估框架未能区分推理失败和实际约束条件,从而导致对模型能力的误分类;(3)更严重的是,他们的渡河问题基准测试中包含了数学上无法解决的实例(当 N > 5 时,由于船容量不足导致问题无解),然而模型因未能解决这些无解问题而被判定为失败。当我们通过要求生成函数而不是详尽的移动列表来控制这些实验偏差时,初步跨多模型实验表明,在之前报告为完全失败的河内塔实例上,模型仍能保持高准确率。这些发现强调了在评估人工智能推理能力时,精心设计实验的重要性。
  • 图表
  • 解决问题
    该论文试图解决Large Reasoning Models (LRMs) 在复杂规划任务中表现不佳的问题,特别是 Shojaee 等人(2025)提出的‘准确率崩溃’现象。这是一个现有研究中的争议性问题,但作者认为这并非模型推理能力的根本限制,而是实验设计的问题。
  • 关键思路
    论文的关键思路是重新评估 LRMs 的推理能力,并指出 Shojaee 等人研究中存在的三个实验设计缺陷:1)模型输出受限于 token 数量;2)自动评估框架未能区分推理失败与实际约束;3)River Crossing 基准测试包含无解实例。通过改进实验设计(如要求生成函数而非详尽步骤列表),作者发现模型在 Tower of Hanoi 等任务上的表现远优于之前报道的结果。
  • 其它亮点
    亮点包括:1)揭示了先前研究中实验设计的局限性;2)提出了更合理的评估方法,例如使用生成函数代替完整解法列表;3)初步实验表明 LRMs 在高复杂度任务上的潜力被低估;4)未提及具体数据集或开源代码,但强调了未来研究方向,如进一步优化评估指标和探索 LRMs 的边界。
  • 相关研究
    相关研究包括 Shojaee 等人(2025)关于 LRMs 准确率崩溃的研究,以及其它探讨 AI 规划与推理能力的工作,如《Evaluating Long-Context Reasoning in Transformers》和《Scaling Laws for Autoregressive Planning Models》。此外,有关生成式模型在逻辑推理任务上的应用也是热门领域,例如《Reasoning with Large Language Models: A Survey》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论