热门活动｜李飞飞组工作，s1: 1000个思考样本激发大语言模型的Test-time Scaling

报告主题：s1: 一千个思考样本激发大语言模型的Test-time Scaling

报告日期：02月19日（本周三）10:30-11:30

报告要点:

Test-time scaling 指大语言模型在测试阶段（Test-time）通过使用额外的计算来提升性能。我们寻求实现 test-time scaling 和强大推理性能的最简方法。首先，我们基于难度、多样性和质量这三个经过消融实验验证的标准，构建了一个包含1000个问题及其推理过程的小型数据集 s1K。其次，我们开发了 budget forcing 方法来控制测试时的计算量：当模型试图结束思考时，我们通过强制终止模型的思考过程或者通过多次添加 "Wait" 来延长其生成过程。这可以引导模型重新检查答案，从而修正错误的推理步骤。在用 s1K 对 Qwen2.5-32B-Instruct 进行监督微调并使用 budget forcing 方法后, 我们的模型 s1-32B 在 AIME24 和 MATH 测试集上的表现超过 o1-preview。此外, 通过 budget forcing 方法对 s1-32B 进行test-time scaling 可以将其在 AIME24 从50%提升到57%。

报告嘉宾：

杨紫童现为斯坦福大学自然语言处理组的博士生，师从Tatsunori Hashimoto和Emmanuel Candès教授。他还在苹果公司进行苹果大语言模型的研究工作。他的研究兴趣主要集中在如何让大语言模型超越人类数据的指导。在加入斯坦福之前，杨紫童在加州大学伯克利分校就读，在Jacob Steinhardt和马毅教授的指导下研究人工智能的统计基础。他在伯克利获得了数学、物理和计算机科学三个学士学位，以及电子工程硕士学位。此前，杨紫童曾就职于谷歌人工智能部门，研究检索增强语言模型。他也曾在量化对冲基金 Voleon 工作，研究人工智能在金融领域的应用。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

热门活动｜李飞飞组工作，s1: 1000个思考样本激发大语言模型的Test-time Scaling

评论列表

评论