The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

向作者提问

NEW

简介

最近几代语言模型引入了大型推理模型（LRMs），这些模型在提供答案之前会生成详细的思考过程。尽管这些模型在推理基准测试中表现出更好的性能，但其基本能力、扩展特性以及局限性仍然理解不足。当前的评估主要集中在已有的数学和编程基准上，重点在于最终答案的准确性。然而，这种评估范式常常受到污染，并且无法提供对推理轨迹的深入洞察。在这项工作中，我们借助可控的谜题环境系统地研究了这些差距，这种环境能够在保持一致逻辑结构的同时精确操控复杂度。这一设置不仅能够分析最终答案，还能分析内部推理轨迹，从而揭示LRMs是如何思考的。通过广泛的实验，我们发现LRMs在超过一定复杂度后会出现完全的准确率崩溃。此外，它们表现出一种反直觉的扩展限制：随着问题复杂度的增加，其推理努力先增加到某个点，然后即使仍有剩余的计算预算，也会开始下降。通过在同一推理计算条件下将LRMs与其标准LLM对比，我们识别出三种性能模式：（1）低复杂度任务中，标准模型的表现优于LRMs；（2）中等复杂度任务中，LRMs表现出优势；（3）高复杂度任务中，两种模型都面临完全崩溃的情况。我们发现LRMs在精确计算方面存在局限性：它们无法有效使用明确的算法，并且在不同规模的问题上推理表现不一致。我们还进一步研究了推理轨迹，探讨了解决方案的探索模式，并分析了模型的计算行为，从而揭示了它们的优势、局限性，并提出了关于其推理能力的疑问。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型推理模型（LRMs）在复杂任务中的性能和局限性问题，尤其是其推理能力随问题复杂度变化的行为。这是一个尚未完全理解的问题，现有的评估方法主要关注最终答案的准确性，而忽视了推理过程的分析。
关键思路

关键思路是通过设计可控的谜题环境来系统研究LRMs的推理行为。这些环境允许精确控制问题复杂度并保持逻辑结构一致，从而不仅评估最终答案的准确性，还分析内部推理痕迹。这种方法揭示了LRMs在高复杂度任务中准确性的崩溃以及推理努力的非线性变化规律。
其它亮点

实验设计使用了定制化的谜题环境，能够逐步增加问题复杂度，并对比LRMs与标准LLMs的表现。研究发现了三种任务复杂度下的表现模式：低复杂度下标准模型占优、中复杂度下LRMs表现更好、高复杂度下两者均崩溃。此外，论文深入分析了LRMs的推理痕迹，发现其在算法计算上的不一致性。代码和数据集未提及是否开源，但该研究为未来探索LRMs的改进方向提供了重要线索。
相关研究

相关研究包括近期关于大型语言模型推理能力的工作，例如《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》和《Evaluating Large Language Models Trained on Code》。此外，还有针对数学推理的专项研究，如《Mathematical Reasoning in Large Language Models》。本研究的独特之处在于专注于推理过程而非仅限于结果，这与传统的基准测试方法形成鲜明对比。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问