- 简介最近的深度思考大型语言模型常常通过广泛的推理来提高性能,但这种冗长的推理并不总是可取的,因为它会导致过高的推理成本,而性能提升却不成比例。因此,在不牺牲性能的情况下控制推理长度非常重要,但在严格的思考预算下仍然具有挑战性。我们提出了“预算引导”,这是一种简单而有效的方法,可以在不需要对大语言模型进行微调的情况下,将其推理过程导向目标预算。我们的方法引入了一个轻量级预测器,该预测器在生成下一个标记时对剩余的思考长度建模为伽马分布。然后利用这一信号以柔和且逐标记的方式引导生成过程,确保整体推理轨迹符合指定的思考预算。预算引导能够自然地控制思考长度,并在复杂的数学基准测试中相比基线方法显著提高标记效率。例如,在严格的预算条件下,它在MATH-500基准测试中比基线方法提高了高达26%的准确率,同时仅使用完整思考模型63%的标记数即可保持具有竞争力的准确率。此外,预算引导还可扩展到更广泛的任务领域,并展现出一些新兴能力,例如估计问题难度。源代码可在以下地址获取:https://github.com/UMass-Embodied-AGI/BudgetGuidance。
-
- 图表
- 解决问题论文试图解决如何在有限的推理预算下控制大型语言模型(LLM)的推理长度,同时不牺牲性能的问题。这是一个在实际应用中具有重要意义但尚未得到充分解决的问题。
- 关键思路论文提出了一种名为‘预算引导’的方法,通过引入一个轻量级预测器来建模剩余推理长度的Gamma分布,并在生成过程中以软性方式指导每个token的选择。这种方法无需对LLM进行微调即可实现对推理长度的有效控制,从而提高token效率。
- 其它亮点1. 在MATH-500基准测试中,该方法在严格预算下实现了26%的准确率提升;2. 只使用了完整推理模型63%的token数量,仍保持了竞争力的准确性;3. 方法可泛化到其他任务领域,并展现出如估计问题难度等新兴能力;4. 论文代码已开源:https://github.com/UMass-Embodied-AGI/BudgetGuidance;5. 值得进一步研究的方向包括更复杂的任务适配和预算分配策略优化。
- 近期相关研究包括:1. ‘Chain of Thought Prompting Elicits Reasoning in Large Language Models’,探讨了通过提示链增强LLM推理能力;2. ‘Efficient Thinking for Large Language Models’,研究了减少推理成本的技术;3. ‘Sparse Activations Enable Efficient Inference in Transformer Models’,提出了稀疏激活机制以提高计算效率。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流