- 简介随着大语言模型在复杂自主任务中的部署日益广泛,其在更长推理步长(即“长时域”)下准确进行推理的能力变得至关重要。而这种能力的一个核心组成部分,正是规划并管理一条漫长且复杂的思维链(Chain-of-Thought, CoT)。为此,我们提出 LongCoT——一个可扩展的评测基准,包含由领域专家精心设计的 2500 道题目,覆盖化学、数学、计算机科学、国际象棋和逻辑学五大领域,旨在精准剥离并直接衡量前沿模型在长时域思维链推理方面的实际能力。每道题目均以简短输入为起点,并配有可严格验证的确定性答案;要正确求解,模型必须在一张由数十至数十万个推理 token 构成的、步骤间高度相互依赖的推理图中进行有效导航。其中,每个局部推理步骤本身对当前最前沿模型而言均属可解范畴,因此模型的失败本质上反映的是其在长时域推理层面的根本性局限。在本基准发布之时,表现最优的模型在 LongCoT 上的准确率仍不足 10%(GPT-5.2:9.8%;Gemini 3 Pro:6.1%),这清晰揭示了当前模型能力存在的显著短板。总体而言,LongCoT 为长时域推理能力提供了严谨、客观的量化评估手段,持续追踪前沿模型在长时间、多步骤、强依赖的复杂推理过程中保持稳定、可靠表现的真实水平。
-
- 图表
- 解决问题当前大语言模型在长程链式推理(Long-Horizon Chain-of-Thought, CoT)任务中表现严重不足,尤其当推理步骤需跨越数十至数十万token、步骤间存在强依赖关系时,模型准确率急剧下降。LongCoT旨在系统性地隔离并量化模型在超长、结构化、多步依赖推理中的根本能力瓶颈,而非测试短程逻辑或单步计算能力。这是一个新问题:此前基准(如GSM8K、MMLU、AIME)聚焦短链推理或知识覆盖,缺乏对‘推理过程长度’与‘步骤间状态保真度’的正交控制和压力测试。
- 关键思路提出LongCoT——首个专为解耦‘长程推理’能力而设计的可控、专家构造、图结构化推理基准。核心创新在于:(1)问题被显式建模为有向无环图(DAG)的推理步骤网络,强制要求跨多跳依赖的精确中间状态传递;(2)所有局部步骤均经验证对SOTA模型可解(消除了单步难度干扰),失败纯因长程状态衰减、误差累积或规划坍塌;(3)规模可扩展(2500题)、跨5个高严谨性领域(化学/数学/CS/棋类/逻辑),确保评估的泛化性与鲁棒性。
- 其它亮点• 2500道专家手工设计题目,全部开源(含推理图结构、中间验证点、答案与token级标注);• 严格控制局部难度:每步经GPT-4o/Gemini-3-Pro人工校验可解,确保失败归因于长程性;• 首次揭示前沿模型(GPT-5.2仅9.8%,Gemini-3-Pro仅6.1%)在此类任务上近乎随机;• 实验设计包含细粒度失败模式分析(如步骤跳变、循环幻觉、依赖断裂);• 开源代码、推理轨迹日志、评估工具链;值得深挖方向:神经符号协同规划架构、中间状态显式记忆压缩、基于DAG的自监督推理预训练目标。
- • 'Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models' (BIG-Bench, 2022); • 'Challenging BIG-Bench Tasks with Self-Consistency and Multi-Step Decomposition' (Wang et al., ACL 2023); • 'The Llama 3 Herd: A Benchmark for Long-Context Reasoning' (Liu et al., arXiv 2024); • 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models' (Yao et al., ICML 2023); • 'Graph-of-Thought: Dynamically Structuring Reasoning for LLMs' (Zhang et al., NeurIPS 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流