L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

简介

推理语言模型展现出了通过“更长时间思考”来提高测试时性能的奇特能力，也就是说，通过生成更长的思维链序列从而使用更多的计算资源。然而，它们的思维链推理长度是不可控的，这使得无法分配测试时的计算资源以达到预期的性能水平。我们引入了长度可控策略优化（LCPO），这是一种简单的强化学习方法，旨在优化准确性和遵循用户指定的长度约束。我们使用LCPO训练L1，一种推理语言模型，该模型能够根据提示中给出的长度约束生成输出。L1的长度控制功能可以在广泛的任务上平滑地权衡计算成本和准确性，并且在长度控制方面优于最先进的S1方法。此外，我们在使用LCPO训练的模型中发现了一种意外的短思维链能力。例如，我们的15亿参数的L1模型在相同的推理长度下超越了GPT-4o。总体而言，LCPO实现了对推理长度的精确控制，允许对测试时的计算资源和准确性进行细致分配。我们将在https://www.cmu-l3.github.io/l1发布代码和模型。
图表
解决问题

该论文试图解决当前推理语言模型在测试时生成的链式思考序列长度不可控的问题，这导致无法根据所需的性能水平精确分配计算资源。这是一个新问题，因为它专注于对推理长度的可控性，这是之前研究较少涉及的方面。
关键思路

关键思路是引入了一种名为Length Controlled Policy Optimization (LCPO) 的简单强化学习方法，该方法不仅优化了准确性，还确保了模型输出符合用户指定的长度约束。相比现有研究，这种方法能够更精细地控制推理过程的长度，从而实现计算成本和准确性的灵活权衡。
其它亮点

论文展示了L1模型通过LCPO训练后，在保持相同推理长度的情况下，其性能超越了GPT-4o等先进模型。此外，作者发现LCPO训练的模型具有意外的短链式思考能力。实验设计包括一系列任务上的性能评估，并且代码和模型已在GitHub上开源，便于后续研究者复现结果并进一步探索。值得继续深入研究的方向包括LCPO在不同任务类型中的适用性和改进策略。
相关研究

最近在这个领域中，相关研究还包括《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》、《Scaling Laws for Autoregressive Generative Modeling》和《Optimizing Computation and Accuracy in Large Language Models》等论文，这些研究主要探讨了如何通过调整模型架构或训练方法来提高推理效率和准确性。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论