Steering LLM Thinking with Budget Guidance

向作者提问

NEW

简介

最近的深度思考大型语言模型常常通过广泛的推理来提高性能，但这种冗长的推理并不总是可取的，因为它会导致过高的推理成本，而性能提升却不成比例。因此，在不牺牲性能的情况下控制推理长度非常重要，但在严格的思考预算下仍然具有挑战性。我们提出了“预算引导”，这是一种简单而有效的方法，可以在不需要对大语言模型进行微调的情况下，将其推理过程导向目标预算。我们的方法引入了一个轻量级预测器，该预测器在生成下一个标记时对剩余的思考长度建模为伽马分布。然后利用这一信号以柔和且逐标记的方式引导生成过程，确保整体推理轨迹符合指定的思考预算。预算引导能够自然地控制思考长度，并在复杂的数学基准测试中相比基线方法显著提高标记效率。例如，在严格的预算条件下，它在MATH-500基准测试中比基线方法提高了高达26%的准确率，同时仅使用完整思考模型63%的标记数即可保持具有竞争力的准确率。此外，预算引导还可扩展到更广泛的任务领域，并展现出一些新兴能力，例如估计问题难度。源代码可在以下地址获取：https://github.com/UMass-Embodied-AGI/BudgetGuidance。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决如何在有限的推理预算下控制大型语言模型（LLM）的推理长度，同时不牺牲性能的问题。这是一个在实际应用中具有重要意义但尚未得到充分解决的问题。
关键思路

论文提出了一种名为‘预算引导’的方法，通过引入一个轻量级预测器来建模剩余推理长度的Gamma分布，并在生成过程中以软性方式指导每个token的选择。这种方法无需对LLM进行微调即可实现对推理长度的有效控制，从而提高token效率。
其它亮点

1. 在MATH-500基准测试中，该方法在严格预算下实现了26%的准确率提升；2. 只使用了完整推理模型63%的token数量，仍保持了竞争力的准确性；3. 方法可泛化到其他任务领域，并展现出如估计问题难度等新兴能力；4. 论文代码已开源：https://github.com/UMass-Embodied-AGI/BudgetGuidance；5. 值得进一步研究的方向包括更复杂的任务适配和预算分配策略优化。
相关研究

近期相关研究包括：1. ‘Chain of Thought Prompting Elicits Reasoning in Large Language Models’，探讨了通过提示链增强LLM推理能力；2. ‘Efficient Thinking for Large Language Models’，研究了减少推理成本的技术；3. ‘Sparse Activations Enable Efficient Inference in Transformer Models’，提出了稀疏激活机制以提高计算效率。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问