Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL

向作者提问

NEW

简介

那些能够突破训练预算限制、持续自我提升的大语言模型（LLMs），可通过在测试阶段动态调整自身行为来求解日益复杂的问题，我们称这一能力为“外推能力”（extrapolation）。然而，标准的强化学习（RL）方法仅在固定的问题分布和固定的训练预算下运行，因而难以应对测试阶段出现的分布偏移，从而严重制约了模型的外推能力。为解决这一问题，我们提出了RC（Reasoning Chain）——一种迭代式解码算法，它在训练与推理两个阶段均替代了传统的自回归式解码。RC充分利用大语言模型在响应生成能力与摘要生成能力之间存在的固有不对称性，构建出可随迭代轮次持续优化的推理链。经RC训练的模型，其推理跨度（reasoning horizon）可外推至远超训练阶段所见长度一个数量级以上的水平，并在此过程中实现持续性能提升。实证结果表明：在仅使用16K token训练预算的情况下，对一个40亿参数（4B）的模型采用RC进行训练，其在HMMT 2025基准测试上的准确率可从40%显著提升至近70%（测试时消耗0.5M token），不仅大幅超越同规模的对比模型，甚至优于众多参数量更大的专用推理型大语言模型。最后，我们还发现：得益于训练过程中习得的、更优的“基于摘要的条件生成”（summary-conditioned generation）能力，经RC训练的模型能更高效地利用现有推理框架（scaffolds），从而进一步拓展其测试阶段的性能上限。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统大语言模型（LLMs）在训练完成后推理能力受限于固定训练预算和静态分布，难以在测试时面对分布偏移或更难问题实现持续自我提升（即‘外推式改进’）。该论文明确提出了‘extrapolation’这一新性质定义——模型需在远超训练时所见推理长度（如10倍以上）和难度的测试场景中，通过迭代自适应实现性能持续上升，这是一个尚未被系统建模与赋能的新问题。
关键思路

提出RC（Recursive Chain）迭代解码算法：摒弃标准自回归解码，在训练与推理中统一采用‘生成→摘要→重生成’闭环；关键创新在于显式利用LLM固有的‘摘要能力远强于长链生成能力’的不对称性，将上一轮完整推理链压缩为高质量、信息稠密的摘要，并以此为条件引导下一轮更精准的推理，形成可累积改进的推理链。这是首个将能力不对称性转化为结构化迭代优化机制的方法。
其它亮点

在HMMT 2025基准上，仅用16k-token训练预算训练的4B模型，测试时消耗0.5M tokens即达69.8%准确率（+30pt），显著超越同规模模型及多数更大推理模型；RC训练使模型获得强摘要条件生成能力，可无缝融合Tree-of-Thought、Self-Consistency等现有推理支架并放大其增益；论文未提代码开源，但实验设计严谨（控制训练预算、跨长度泛化评估、消融迭代深度），HMMT 2025为新发布高难度多步推理数据集；值得深入的方向包括：RC与世界模型结合、摘要压缩的信息理论边界、以及面向数学/科学发现的开放式外推验证。
相关研究

1. 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models' (Yao et al., 2023); 2. 'Self-Refine: Iterative Refinement with Self-Feedback' (Madaan et al., 2024); 3. 'Large Language Models as Optimizers' (Gao et al., 2024); 4. 'Test-Time Scaling Laws for Reasoning LLMs' (Liu et al., NeurIPS 2023); 5. 'Reasoning with Language Model Cascades' (Deng et al., ICML 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问