扩展推理时的计算规模显著提升了语言模型的推理能力。然而,现有方法存在明显局限性:串行的链式思维方法生成过长的输出,导致延迟增加和上下文窗口耗尽;而并行方法如自一致性(self-consistency)则因协调不足,造成冗余计算和性能提升有限。为了解决这些问题,我们提出了自适应并行推理(Adaptive Parallel Reasoning, APR),这是一种新型推理框架,使语言模型能够端到端地协调串行和并行计算。APR 通过引入 spawn() 和 join() 操作实现了自适应多线程推理,从而推广了现有的推理方法。一个关键创新点是我们采用的端到端强化学习策略,该策略优化了主推理线程和子推理线程,从而在无需预定义推理结构的情况下提高任务成功率。在 Countdown 推理任务上的实验表明,APR 带来了显著的优势:(1) 在相同的上下文窗口内性能更高(4k 上下文时为 83.4% 对比 60.0%);(2) 随着计算量增加,可扩展性更强(总 token 数为 20k 时为 80.1% 对比 66.6%);(3) 在等效延迟下准确率更高(约 5,000ms 时为 75.2% 对比 57.3%)。APR 标志着向使语言模型通过自适应分配计算资源自主优化其推理过程迈出了重要一步。