Reasoning Models Reason Well, Until They Don't

向作者提问

NEW

简介

大型语言模型（LLMs）在推理任务中已展现出显著进展。然而，近期研究表明，一旦推理问题的复杂性超过一定水平，Transformer架构和LLMs便会遭遇灾难性失败。我们通过“大型推理模型”（LRMs）——即经过微调、鼓励逐步论证与自我验证的LLMs——的视角重新审视这些发现。LRMs在诸如NLGraph等图结构与推理基准测试上的表现看似非凡，甚至有人声称它们已具备在数学、物理、医学和法律等高度依赖推理的领域中进行通用推理和创新的能力。然而，通过更细致地调整推理问题的复杂度，我们发现现有基准测试的实际复杂度其实有限。为此，我们构建了一个新数据集——深度推理数据集（DeepRD），并设计了一种生成具有可扩展复杂度的无限样本的生成方法。我们利用该数据集评估模型在图连通性和自然语言证明规划任务上的表现。结果表明，当复杂度达到一定程度时，LRMs的性能会急剧下降，且不具备泛化能力。我们还将LRMs的结果与大规模真实世界知识图谱、交互图谱以及证明数据集中复杂度的分布情况进行对比分析，发现大多数现实世界的案例仍处于LRMs能够成功处理的范围内，但其长尾部分暴露出巨大的失效风险。我们的分析凸显了LRMs在短期内的应用价值，同时也强调亟需开发能够超越训练数据复杂度范围、实现真正泛化的新型方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前大型语言模型（LLMs）在简单推理任务上表现良好，但当推理复杂度增加时性能急剧下降。论文试图验证：经过细调、鼓励逐步推理和自我验证的大型推理模型（LRMs）是否真正具备泛化推理能力，尤其是在高复杂度问题上的表现。这是一个关键且尚未充分解决的问题——即模型能否超越训练数据中的复杂度分布进行推广。
关键思路

提出并使用一个可生成无限复杂度样本的新数据集 DeepRD，系统性地扩展推理任务的复杂度，以测试 LRMs 在图连通性和自然语言证明规划任务中的极限。关键创新在于通过可控生成过程揭示模型性能随复杂度上升而骤降的现象，从而挑战了‘LRMs 具备通用推理能力’的假设。
其它亮点

构建了新的可扩展推理数据集 DeepRD，支持复杂度渐进增长的评估；实验设计严谨，覆盖图结构与自然语言证明两种推理形式；发现即使最先进的 LRMs 在足够复杂的任务上也会突然失效，且不具备跨复杂度泛化能力；分析现实世界知识图谱、交互图和证明数据的复杂度分布，发现多数实际案例处于模型成功区间，但长尾部分暴露严重缺陷；代码与数据集已开源，为后续研究提供基础。
相关研究

近期相关研究包括：《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》（Wei et al., 2022）首次提出思维链激发推理；《Large Language Models are Zero-Shot Planners》（Huang et al., 2022）探索规划能力；《Self-Consistency Improves Chain of Thought Reasoning in Language Models》（Wang et al., 2023）提升推理一致性；《Principled Evaluation of LLMs for Theorem Proving》（Jiang et al., 2024）关注形式化推理评估；以及《Measuring Inductive Bias in Reasoning Networks》（Zelikman et al., 2023）从归纳偏置角度分析模型局限性。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问