s1: Simple test-time scaling - 智源社区论文

简介

测试时扩展是语言建模的一种有前景的新方法，它利用额外的测试时间计算资源来提升性能。最近，OpenAI的o1模型展示了这种能力，但没有公开其方法，这导致了许多尝试复制的努力。我们寻求一种最简单的方法来实现测试时扩展和强大的推理性能。首先，我们整理了一个小型数据集s1K，包含1,000个问题及其推理痕迹，这些问题是根据三个通过消融验证的标准选择的：难度、多样性和质量。其次，我们开发了预算强制技术，以控制测试时的计算资源。该技术通过强制终止模型的思考过程或在其试图结束生成时多次附加“Wait”来延长思考时间，从而让模型重新检查其答案，通常可以修正不正确的推理步骤。在使用s1K对Qwen2.5-32B-Instruct语言模型进行监督微调并配备预算强制后，我们的模型s1-32B在竞赛数学问题上的表现超过了o1-preview，最高可达27%（MATH和AIME24）。此外，通过预算强制扩展s1-32B，可以在没有测试时干预的情况下外推其性能：从AIME24的50%提高到57%。我们的模型、数据和代码已开源，可在https://github.com/simplescaling/s1获取。
图表
解决问题

论文试图解决如何在测试时通过额外计算资源提高语言模型性能的问题，特别是增强模型的推理能力。这是一个相对较新的问题，尤其是在公开方法和实现细节方面。
关键思路

关键思路是通过‘预算强制’（budget forcing）技术控制测试时的计算资源使用，并通过微调一个大型语言模型（Qwen2.5-32B-Instruct）来实现这一目标。相比现有研究，该方法不仅简单而且有效，能够在不增加训练成本的情况下显著提升模型性能。
其它亮点

亮点包括：1) 构建了一个精心策划的小型数据集s1K，确保了问题的难度、多样性和质量；2) 使用‘预算强制’技术延长或终止模型生成过程，促使模型进行自我检查和修正；3) 实验结果表明，在某些数学竞赛题目上，改进后的模型性能超越了OpenAI的o1模型；4) 所有代码、数据和模型均已开源，便于后续研究。
相关研究

最近在这个领域中，相关研究还包括：1) OpenAI关于o1模型的研究，虽然未公开具体方法但展示了测试时扩展的可能性；2) 其他机构对测试时扩展技术的探索，如通过提示工程或动态推理路径优化等方法。相关的论文标题可以参考《Scaling Laws for Neural Language Models》和《Prompt Engineering for Enhanced Inference in Large Language Models》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论