Learning Adaptive Parallel Reasoning with Language Models

简介

扩展推理时的计算规模显著提升了语言模型的推理能力。然而，现有方法存在明显局限性：串行的链式思维方法生成过长的输出，导致延迟增加和上下文窗口耗尽；而并行方法如自一致性（self-consistency）则因协调不足，造成冗余计算和性能提升有限。为了解决这些问题，我们提出了自适应并行推理（Adaptive Parallel Reasoning, APR），这是一种新型推理框架，使语言模型能够端到端地协调串行和并行计算。APR 通过引入 spawn() 和 join() 操作实现了自适应多线程推理，从而推广了现有的推理方法。一个关键创新点是我们采用的端到端强化学习策略，该策略优化了主推理线程和子推理线程，从而在无需预定义推理结构的情况下提高任务成功率。在 Countdown 推理任务上的实验表明，APR 带来了显著的优势：(1) 在相同的上下文窗口内性能更高（4k 上下文时为 83.4% 对比 60.0%）；(2) 随着计算量增加，可扩展性更强（总 token 数为 20k 时为 80.1% 对比 66.6%）；(3) 在等效延迟下准确率更高（约 5,000ms 时为 75.2% 对比 57.3%）。APR 标志着向使语言模型通过自适应分配计算资源自主优化其推理过程迈出了重要一步。
图表
解决问题

论文试图解决语言模型在推理过程中存在的效率和性能问题，例如串行链式推理导致的输出过长、延迟增加以及上下文窗口耗尽，以及并行方法（如自一致性）因缺乏协调而产生的冗余计算和性能增益有限的问题。这是一个需要进一步优化的现有问题。
关键思路

论文提出了一种名为Adaptive Parallel Reasoning (APR) 的新型推理框架，该框架通过spawn() 和 join() 操作实现了串行与并行计算的端到端协调，并采用端到端强化学习策略优化父线程和子线程推理过程。相比现有方法，APR 不依赖预定义的推理结构，能够根据任务需求动态分配计算资源。
其它亮点

论文通过 Countdown 推理任务展示了 APR 的显著优势：(1) 在相同上下文窗口内性能更高（83.4% vs. 60.0%）；(2) 随着计算量增加表现出更好的可扩展性（80.1% vs. 66.6%）；(3) 在等效延迟下准确率更高（75.2% vs. 57.3%）。实验设计合理，使用了具体任务衡量性能，但未提及代码是否开源。未来可以研究如何将 APR 应用于更多复杂推理场景。
相关研究

近期相关研究包括：(1) Self-Consistency 方法，通过并行生成多个候选答案提高推理质量；(2) Tree-of-Thought 推理，利用树形结构进行多步推理；(3) Chain-of-Thought 提示方法，通过逐步推理提升语言模型性能。相关论文如《Self-Consistency Improves Chain of Thought Reasoning》和《Tree-Structured Decoding for Solving Math Word Problems》等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论