- 简介大型语言模型通过将问题分解为结构化的推理步骤,在复杂任务中表现出色。然而,推理过程往往超出得出正确答案的范围,导致计算资源浪费、可读性降低以及出现幻觉现象。为了解决这一问题,我们提出了一种全新的、无需超参数的简洁性评分方法,该评分作为强化学习框架中的奖励信号,引导模型生成既正确又简洁的推理过程。此评分由一个充当裁判的大规模语言模型进行评估,能够提供超越简单令牌长度限制的动态、上下文感知反馈。我们的方法在MATH数据集上实现了最先进的效率与准确率权衡:在简单问题上,可以将令牌使用量减少多达31倍,同时将准确率提高7%;而在最难的问题上,我们的方法以少至3.6倍的令牌数量,比完整推理过程高出7.5%的准确率。在TheoremQA数据集上,我们的方法通过使用少12.5倍的令牌,将准确率提升了2.2%。此外,我们还对裁判模型、奖励组成和问题难度进行了消融研究,结果表明,我们的方法能够根据问题难度动态调整推理长度,并且从更强大的裁判模型中显著受益。代码、模型权重和数据集已在以下地址开源:https://github.com/RazvanDu/ConciseRL。
-
- 图表
- 解决问题论文试图解决大型语言模型在生成推理过程时存在的冗长性问题,包括浪费计算资源、降低可读性和可能引发幻觉输出。这是一个在提升语言模型效率与准确性方面的重要问题,但尚未有系统性解决方案。
- 关键思路论文提出了一种无需超参数调整的简洁性评分机制,结合强化学习框架引导模型生成既正确又简洁的推理过程。该评分由一个大语言模型作为裁判动态评估,超越了简单基于令牌长度的静态方法,实现了动态适配推理长度的能力。
- 其它亮点实验表明,该方法在MATH数据集上显著减少了令牌使用量(最多31倍减少)并提升了7%的准确率,在最难问题上仍保持优于完整推理的效果(+7.5%准确率,3.6倍少令牌)。在TheoremQA数据集上,准确率提高了2.2%,同时使用了12.5倍更少的令牌。此外,作者进行了消融研究以验证裁判模型、奖励构成和问题难度对结果的影响,并开源了代码、模型权重和数据集,为后续研究提供了坚实基础。
- 相关研究包括:(1)《Chain of Thought Prompting Elicits Reasoning in Large Language Models》,探讨通过提示工程提升推理能力;(2)《Learning to Solve Hard Minimal Problems》,专注于解决困难数学问题的方法;(3)《Reinforcement Learning for Mathematical Reasoning》,利用强化学习优化数学推理过程。这些研究共同推动了语言模型在复杂任务上的表现,而本论文的独特之处在于引入了动态简洁性评分以平衡效率与准确性。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流