报告主题:s1: 一千个思考样本激发大语言模型的Test-time Scaling
报告日期:02月19日(本周三)10:30-11:30
报告要点:
Test-time scaling 指大语言模型在测试阶段(Test-time)通过使用额外的计算来提升性能。我们寻求实现 test-time scaling 和强大推理性能的最简方法。首先 ,我们基于难度、多样性和质量这三个经过消融实验验证的标准,构建了一个包含1000个问题及其推理过程的小型数据集 s1K。其次,我们开发了 budget forcing 方法来控制测试时的计算量:当模型试图结束思考时,我们通过强制终止模型的思考过程或者通过多次添加 "Wait" 来延长其生成过程。这可以引导模型重新检查答案,从而修正错误的推理步骤。在用 s1K 对 Qwen2.5-32B-Instruct 进行监督微调并使用 budget forcing 方法后, 我们的模型 s1-32B 在 AIME24 和 MATH 测试集上的表现超过 o1-preview。此外, 通过 budget forcing 方法对 s1-32B 进行test-time scaling 可以将其在 AIME24 从50%提升到57%。
报告嘉宾:
扫码报名
更多热门报告
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢