图片

报告主题:s1: 一千个思考样本激发大语言模型的Test-time Scaling

报告日期:02月19日(本周三)10:30-11:30

报告要点:

Test-time scaling 指大语言模型在测试阶段(Test-time)通过使用额外的计算来提升性能。我们寻求实现 test-time scaling 和强大推理性能的最简方法。首先 ,我们基于难度、多样性和质量这三个经过消融实验验证的标准,构建了一个包含1000个问题及其推理过程的小型数据集 s1K。其次,我们开发了 budget forcing 方法来控制测试时的计算量:当模型试图结束思考时,我们通过强制终止模型的思考过程或者通过多次添加 "Wait" 来延长其生成过程。这可以引导模型重新检查答案,从而修正错误的推理步骤。在用 s1K 对 Qwen2.5-32B-Instruct 进行监督微调并使用 budget forcing 方法后, 我们的模型 s1-32B 在 AIME24 和 MATH 测试集上的表现超过 o1-preview。此外, 通过 budget forcing 方法对 s1-32B 进行test-time scaling 可以将其在 AIME24 从50%提升到57%。

报告嘉宾:

杨紫童现为斯坦福大学自然语言处理组的博士生,师从Tatsunori Hashimoto和Emmanuel Candès教授。他还在苹果公司进行苹果大语言模型的研究工作。他的研究兴趣主要集中在如何让大语言模型超越人类数据的指导。在加入斯坦福之前,杨紫童在加州大学伯克利分校就读,在Jacob Steinhardt和马毅教授的指导下研究人工智能的统计基础。他在伯克利获得了数学、物理和计算机科学三个学士学位,以及电子工程硕士学位。此前,杨紫童曾就职于谷歌人工智能部门,研究检索增强语言模型。他也曾在量化对冲基金 Voleon 工作,研究人工智能在金融领域的应用。

图片

扫码报名


更多热门报告

图片

图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除