- 简介近期,像 OpenAI 的 o1 这样的推理模型的出现,引发了人工智能社区对封闭模型中这些能力背后机制的热烈猜测,随后开源社区尤其掀起了一波复制这些模型的努力。DeepSeek-R1 的展示在很大程度上平息了这些猜测,证明了通过基础大语言模型(LLM)结合思维链(chains-of-thought)和强化学习(RL),可以有效复制推理能力。然而,探索理论上的替代方法以激发推理仍然具有价值,这不仅可以帮助揭示潜在机制,还能提供可能带来互补优势的额外方法。 在此,我们基于认知心理学和认知架构领域的长期研究展开工作,该领域假设推理源于一组模块化、预先确定的认知操作的有序、序列化执行。关键在于,我们在现代代理工具调用框架内实现了这一核心思想。具体而言,我们为一个 LLM 配备了一组小型的“认知工具”,每个工具封装了特定的推理操作,并由 LLM 自身执行。令人惊讶的是,这种简单的策略在标准数学推理基准测试中显著提升了性能,无论是闭源模型还是开源权重模型,均优于基础 LLM。例如,为 GPT-4.1 提供我们的“认知工具”后,其在 AIME2024 上的 pass@1 性能从 26.7% 提升至 43.3%,使其非常接近 o1-preview 的表现。 除了实际意义外,这一演示还为关于大语言模型推理能力来源的争论做出了贡献:是后训练方法激发了推理能力,还是预训练过程中获得的固有能力起了主要作用?以及后训练是否仅仅是揭示了这些潜在能力?
-
- 图表
- 解决问题论文试图解决如何通过后训练方法提升大型语言模型(LLM)的推理能力,特别是在数学推理任务上的表现。这是一个持续研究的问题,但本研究专注于探索基于认知心理学和代理工具调用框架的新方法,而非传统的链式思维或强化学习方法。
- 关键思路关键思路是将认知心理学中的模块化认知操作理论引入现代LLM中,通过赋予模型一组‘认知工具’来执行特定的推理操作。这些工具由LLM自身实现,并在工具调用框架下进行序列化执行。这种方法与当前主流的链式思维或强化学习不同,强调通过结构化方式激发LLM的潜在推理能力。
- 其它亮点实验表明,使用该方法可以显著提高GPT-4.1等模型在AIME2024等数学推理基准测试上的表现,从26.7%提升到43.3%,接近o1-preview的表现。此外,研究还探讨了后训练方法是否只是挖掘预训练阶段已有的能力,还是进一步增强了模型的能力。论文未提及代码开源情况,但提出了未来可深入研究的方向,例如扩展认知工具集以及结合其他后训练技术。
- 近期相关研究包括DeepSeek-R1的工作,展示了链式思维和强化学习在推理能力上的有效性;OpenAI关于o1模型的研究,探索了推理能力的机制;以及Google的Gemini系列研究,涉及多模态推理能力的提升。其他相关工作包括《Toolformer: Language Models as Tool-Using Agents》和《Reasoning in Large Language Models: A Survey》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流