Rethinking Thinking Tokens: LLMs as Improvement Operators

向作者提问

NEW

简介

推理训练促使大语言模型生成较长的思维链（长思维链），这使得模型能够通过自我检查来探索解决方案策略。这种方法虽然提高了准确率，但也导致上下文长度增加、令牌数量和计算成本上升，以及回答延迟加大。我们提出的问题是：当前的模型能否利用其元认知能力，在这个帕累托前沿上实现其他更优组合，例如在更短的上下文长度或更低延迟的情况下获得更高的准确率？从抽象角度看，我们可以将模型视为对其自身“思维”进行改进的操作符，具备一系列可能的改进策略。我们发现了一类有趣的推理方法——并行-提炼-精炼（Parallel-Distill-Refine, PDR），其执行步骤如下：（i）并行生成多个多样化的初稿；（ii）将这些初稿提炼成一个有界、文本形式的工作区；（iii）基于该工作区进行精炼，生成输出结果，并作为下一轮迭代的输入。重要的是，上下文长度（从而计算成本）可通过并行度进行控制，不再与生成令牌的总数直接绑定。我们展示了当前模型采用PDR方法的具体实现，其准确率优于长思维链方法，同时延迟更低。当并行度设为1时，得到一个有趣的特例——顺序精炼（Sequential Refinement, SR），即对单个候选答案进行迭代优化，其性能也优于长思维链。这类模型协同机制的成功引发了一个问题：是否可以通过进一步训练，使帕累托前沿整体前移？为此，我们采用强化学习（RL）训练了一个80亿参数的“思考”模型，使其在推理过程中与PDR方法保持一致。在具有可验证答案的数学任务上，迭代式推理流程在相同顺序计算预算下超越了单次推理基线，其中PDR带来的提升最为显著（例如在AIME 2024上提升11%，在AIME 2025上提升9%）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前大语言模型在推理时依赖长链思维（long CoT），虽然提升了准确性，但导致上下文长度、计算成本和响应延迟显著增加。论文试图探索是否可以通过模型的元认知能力，在准确率、上下文长度和延迟之间取得更好的权衡，即在降低资源消耗的同时提升性能。这是一个重要且尚未充分探索的问题，尤其在部署高效推理系统时具有现实意义。
关键思路

提出 Parallel-Distill-Refine (PDR) 推理框架：并行生成多个解题草稿，将其压缩到一个有界文本工作区，再基于该工作区进行精炼输出，并迭代此过程。关键创新在于将并行度作为控制计算成本与上下文长度的调节 knob，解耦了总生成量与上下文开销。当并行度为1时退化为 Sequential Refinement（SR），仍优于传统 long CoT。此外，通过强化学习训练8B模型适配PDR推理，进一步推动了效率与性能的帕累托前沿。
其它亮点

在数学推理任务（如AIME 2024/2025）上验证了PDR的有效性，相比单次推理基线，在相同顺序计算预算下显著提升准确率（+11% 和 +9%）。实验设计严谨，结合了zero-shot与fine-tuned模型，使用可验证答案的数据集便于自动评估。强调了推理策略的可组合性与训练-推理协同优化的潜力。代码虽未明确提及开源，但方法具备强可复现性，未来值得研究如何将PDR思想扩展至更多任务及小型模型高效推理。
相关研究

1. 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models' (Wei et al., 2022) 2. 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models' (Yao et al., 2023) 3. 'Self-Consistency Improves Chain of Thought Reasoning in Language Models' (Wang et al., 2023) 4. 'Large Language Models as Optimizers' (Zhang et al., 2023) 5. 'Iterative Refinement for Machine Translation' (Graves, 2016) —— 概念启发

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问