Are Your Reasoning Models Reasoning or Guessing? A Mechanistic Analysis of Hierarchical Reasoning Models

2026年01月15日
  • 简介
    分层推理模型(HRM)在各类推理任务中表现出卓越性能,显著优于基于大语言模型的推理方法。为深入理解HRM的优势及其潜在的失败模式,我们对其推理模式进行了机制性研究,并发现了三个令人意外的现象:(a)无法解决极其简单的谜题,例如HRM可能在一个仅有一个未知格子的谜题上失败;我们将此归因于其违反了“不动点性质”——这是HRM的一个基本假设。(b)推理步骤中存在“顿悟”(grokking)动态,即答案并非逐步改善,而是在某个关键推理步骤突然变得正确;(c)存在多个不动点。HRM会“猜测”第一个不动点,该点可能是错误的,从而导致模型暂时甚至永久陷入其中。上述所有现象表明,HRM更像是在“猜测”而非真正“推理”。基于这一“猜测”视角,我们提出了三种扩展HRM猜测能力的策略:数据增强(提升猜测质量)、输入扰动(利用推理过程中的随机性增加猜测次数)以及模型自举(利用训练过程中的随机性增加猜测次数)。在实践层面,通过综合运用这三种方法,我们开发出增强型HRM,在Sudoku-Extreme任务上的准确率从54.5%大幅提升至96.9%。在科学层面,我们的分析为理解推理模型如何“推理”提供了新的洞见。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决的问题是理解分层推理模型(HRM)在推理任务中的实际工作机制,揭示其为何在某些简单任务上仍会失败,并探索如何提升其性能。这并非传统意义上的新问题,但以机制性视角分析HRM是否真正‘推理’而非‘猜测’,是一个较新的科学假设。
  • 关键思路
    论文的关键思路是通过机制性研究发现HRM实际上更倾向于‘猜测’而非系统推理,表现为固定点性质的失效、多固定点存在以及‘顿悟式’(grokking)推理动态。基于此,作者提出Augmented HRM,通过数据增强、输入扰动和模型自举三种策略扩展‘猜测’空间,从而显著提升准确性。相比现有研究,该工作首次从动态系统与固定点理论角度解构HRM,提供了全新的解释框架。
  • 其它亮点
    论文亮点包括:(1)在Sudoku-Extreme任务上将准确率从54.5%提升至96.9%,效果显著;(2)实验设计深入剖析了HRM的推理轨迹,揭示了非单调的‘顿悟’现象和固定点陷阱;(3)使用了Sudoku类谜题作为推理基准,具有可解释性优势;(4)提出的‘猜测’范式为未来推理模型设计提供新视角;(5)虽未明确提及开源代码,但方法具备可复现性。值得深入的方向包括:将固定点分析推广到其他符号推理任务,以及结合验证机制跳出错误固定点。
  • 相关研究
    1. Scaling Language Models as Reasoners through Self-Correction 2. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 3. Self-Consistency Improves Chain of Thought Reasoning in Language Models 4. Towards Understanding the Inverse Scaling Law in Reasoning Tasks 5. Large Language Models as Optimizers
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问