Scaling Latent Reasoning via Looped Language Models

2025年10月29日
  • 简介
    现代大语言模型(LLM)主要通过显式文本生成(例如思维链,CoT)来实现“思考”,但这种方式将推理能力的培养推迟到后训练阶段,未能充分利用预训练数据。本文提出并开源了名为Ouro的模型系列,其名称取自象征循环递归的衔尾蛇(Ouroboros),是一类循环语言模型(LoopLM),它将推理能力直接融入预训练阶段,具体通过以下三个关键设计实现:(i)在潜在空间中进行迭代计算,(ii)采用熵正则化目标以学习动态分配推理深度,以及(iii)在高达7.7万亿token的数据上进行扩展训练。Ouro的14亿和26亿参数模型在广泛的基准测试中表现出卓越性能,表现媲美高达120亿参数的当前最优大模型。通过受控实验,我们证明这一优势并非源于知识容量的增加,而是来自于更强大的知识运用能力。此外,我们还发现,与显式思维链相比,LoopLM生成的推理过程与最终输出更加一致。我们希望本研究能够展示LoopLM作为推理时代一种全新扩展路径的潜力。我们的模型可通过以下链接获取:http://ouro-llm.github.io。
  • 作者讲解·1
  • 图表
  • 解决问题
    现代大语言模型(LLM)主要依赖后训练阶段的显式文本生成(如思维链CoT)来进行推理,这种方法未能充分利用预训练阶段的数据和潜力。论文试图验证:是否可以通过在预训练阶段内建推理能力来提升模型的推理性能,而不是将推理推迟到推理时的显式生成过程。
  • 关键思路
    提出Looped Language Models(LoopLM),名为Ouro,将推理过程嵌入预训练阶段。其核心思想包括三点:(i) 在潜在空间中进行迭代计算,实现内部‘思考’循环;(ii) 使用熵正则化目标函数,让模型自主学习推理步骤的深度(即‘想多久’);(iii) 在高达7.7万亿token的数据上进行大规模预训练。与传统CoT不同,Ouro的推理是隐式的、循环的、内生于模型结构中的。
  • 其它亮点
    Ouro的1.4B和2.6B小模型在多个基准上表现媲美高达12B的当前最优LLM,且消融实验证明优势来自更强的知识运用能力而非更多知识。实验显示其隐式推理轨迹比显式CoT更一致、更可靠。作者开源了模型和方法(http://ouro-llm.github.io),为未来研究提供了基础。值得深入探索的方向包括隐式推理的可解释性、训练稳定性以及与其他架构(如MoE)结合的可能性。
  • 相关研究
    1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2. Tree of Thoughts: Deliberate Problem Solving with Large Language Models 3. Self-Refine: Iterative Refinement with Self-Feedback 4. Large Language Models as Optimizers 5. Recursive Reasoning via Bootstrapped Meta-Reasoning
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问