The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

2025年06月07日
  • 简介
    最近几代语言模型引入了大型推理模型(LRMs),这些模型在提供答案之前会生成详细的思考过程。尽管这些模型在推理基准测试中表现出更好的性能,但其基本能力、扩展特性以及局限性仍然理解不足。当前的评估主要集中在已有的数学和编程基准上,重点在于最终答案的准确性。然而,这种评估范式常常受到污染,并且无法提供对推理轨迹的深入洞察。在这项工作中,我们借助可控的谜题环境系统地研究了这些差距,这种环境能够在保持一致逻辑结构的同时精确操控复杂度。这一设置不仅能够分析最终答案,还能分析内部推理轨迹,从而揭示LRMs是如何思考的。通过广泛的实验,我们发现LRMs在超过一定复杂度后会出现完全的准确率崩溃。此外,它们表现出一种反直觉的扩展限制:随着问题复杂度的增加,其推理努力先增加到某个点,然后即使仍有剩余的计算预算,也会开始下降。通过在同一推理计算条件下将LRMs与其标准LLM对比,我们识别出三种性能模式:(1)低复杂度任务中,标准模型的表现优于LRMs;(2)中等复杂度任务中,LRMs表现出优势;(3)高复杂度任务中,两种模型都面临完全崩溃的情况。我们发现LRMs在精确计算方面存在局限性:它们无法有效使用明确的算法,并且在不同规模的问题上推理表现不一致。我们还进一步研究了推理轨迹,探讨了解决方案的探索模式,并分析了模型的计算行为,从而揭示了它们的优势、局限性,并提出了关于其推理能力的疑问。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大型推理模型(LRMs)在复杂任务中的性能和局限性问题,尤其是其推理能力随问题复杂度变化的行为。这是一个尚未完全理解的问题,现有的评估方法主要关注最终答案的准确性,而忽视了推理过程的分析。
  • 关键思路
    关键思路是通过设计可控的谜题环境来系统研究LRMs的推理行为。这些环境允许精确控制问题复杂度并保持逻辑结构一致,从而不仅评估最终答案的准确性,还分析内部推理痕迹。这种方法揭示了LRMs在高复杂度任务中准确性的崩溃以及推理努力的非线性变化规律。
  • 其它亮点
    实验设计使用了定制化的谜题环境,能够逐步增加问题复杂度,并对比LRMs与标准LLMs的表现。研究发现了三种任务复杂度下的表现模式:低复杂度下标准模型占优、中复杂度下LRMs表现更好、高复杂度下两者均崩溃。此外,论文深入分析了LRMs的推理痕迹,发现其在算法计算上的不一致性。代码和数据集未提及是否开源,但该研究为未来探索LRMs的改进方向提供了重要线索。
  • 相关研究
    相关研究包括近期关于大型语言模型推理能力的工作,例如《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》和《Evaluating Large Language Models Trained on Code》。此外,还有针对数学推理的专项研究,如《Mathematical Reasoning in Large Language Models》。本研究的独特之处在于专注于推理过程而非仅限于结果,这与传统的基准测试方法形成鲜明对比。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问