NEW

Scaling Latent Reasoning via Looped Language Models

Rui-Jie Zhu ,

Zixuan Wang ,

Kai Hua ,

Tianyu Zhang ,

Ziniu Li ,

Haoran Que ,

Boyi Wei ,

Zixin Wen ,

Fan Yin ,

He Xing ,

Lu Li ,

Jiajun Shi ,

Kaijing Ma ,

Shanda Li ,

Taylor Kergan ,

Andrew Smith ,

Xingwei Qu ,

Mude Hui ,

Bohong Wu ,

Qiyang Min ,

Hongzhi Huang ,

Xun Zhou ,

Wei Ye ,

Jiaheng Liu ,

Jian Yang ,

Yunfeng Shi ,

Chenghua Lin ,

Enduo Zhao ,

Tianle Cai ,

Ge Zhang ,

Wenhao Huang ,

Yoshua Bengio ,

Jason Eshraghian

热度 1283

2025年10月29日

简介

现代大语言模型（LLM）主要通过显式文本生成（例如思维链，CoT）来实现“思考”，但这种方式将推理能力的培养推迟到后训练阶段，未能充分利用预训练数据。本文提出并开源了名为Ouro的模型系列，其名称取自象征循环递归的衔尾蛇（Ouroboros），是一类循环语言模型（LoopLM），它将推理能力直接融入预训练阶段，具体通过以下三个关键设计实现：（i）在潜在空间中进行迭代计算，（ii）采用熵正则化目标以学习动态分配推理深度，以及（iii）在高达7.7万亿token的数据上进行扩展训练。Ouro的14亿和26亿参数模型在广泛的基准测试中表现出卓越性能，表现媲美高达120亿参数的当前最优大模型。通过受控实验，我们证明这一优势并非源于知识容量的增加，而是来自于更强大的知识运用能力。此外，我们还发现，与显式思维链相比，LoopLM生成的推理过程与最终输出更加一致。我们希望本研究能够展示LoopLM作为推理时代一种全新扩展路径的潜力。我们的模型可通过以下链接获取：http://ouro-llm.github.io。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

现代大语言模型（LLM）主要依赖后训练阶段的显式文本生成（如思维链CoT）来进行推理，这种方法未能充分利用预训练阶段的数据和潜力。论文试图验证：是否可以通过在预训练阶段内建推理能力来提升模型的推理性能，而不是将推理推迟到推理时的显式生成过程。
关键思路

提出Looped Language Models（LoopLM），名为Ouro，将推理过程嵌入预训练阶段。其核心思想包括三点：(i) 在潜在空间中进行迭代计算，实现内部‘思考’循环；(ii) 使用熵正则化目标函数，让模型自主学习推理步骤的深度（即‘想多久’）；(iii) 在高达7.7万亿token的数据上进行大规模预训练。与传统CoT不同，Ouro的推理是隐式的、循环的、内生于模型结构中的。
其它亮点

Ouro的1.4B和2.6B小模型在多个基准上表现媲美高达12B的当前最优LLM，且消融实验证明优势来自更强的知识运用能力而非更多知识。实验显示其隐式推理轨迹比显式CoT更一致、更可靠。作者开源了模型和方法（http://ouro-llm.github.io），为未来研究提供了基础。值得深入探索的方向包括隐式推理的可解释性、训练稳定性以及与其他架构（如MoE）结合的可能性。
相关研究

1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2. Tree of Thoughts: Deliberate Problem Solving with Large Language Models 3. Self-Refine: Iterative Refinement with Self-Feedback 4. Large Language Models as Optimizers 5. Recursive Reasoning via Bootstrapped Meta-Reasoning

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问