OpenThoughts: Data Recipes for Reasoning Models

2025年06月04日
  • 简介
    推理模型在许多涉及数学、代码和科学的基准测试中取得了快速进展。然而,关于推理模型的最佳训练方法仍然存在许多开放性问题,因为最先进的模型通常依赖于专有数据集,而这些数据集几乎没有任何公开信息可供参考。为了解决这一问题,OpenThoughts 项目的目标是创建用于训练推理模型的开源数据集。经过初步探索,我们的 OpenThoughts2-1M 数据集催生了 OpenThinker2-32B 模型,这是第一个在公共推理数据上训练并能够在标准推理基准(如 AIME 和 LiveCodeBench)上与 DeepSeek-R1-Distill-32B 相匹敌的模型。随后,我们通过系统地研究数据生成管道的每一步,并进行 1,000 多次受控实验,进一步改进了数据集,从而开发出 OpenThoughts3。将管道扩展到 120 万条样本,并使用 QwQ-32B 作为教师模型,我们得到了 OpenThoughts3-7B 模型,该模型在多个基准上取得了最先进水平:AIME 2025 上得分为 53%,LiveCodeBench 06/24-01/25 上得分为 51%,GPQA Diamond 上得分为 54%——相比 DeepSeek-R1-Distill-Qwen-7B 分别提升了 15.3、17.2 和 20.5 个百分点。我们的所有数据集和模型均可在 https://openthoughts.ai 获取。
  • 图表
  • 解决问题
    该论文试图解决如何通过开放数据集和模型来提升AI在数学、编程和科学推理方面的能力。这是一个重要问题,因为当前许多顶级推理模型依赖于专有数据集,限制了研究的可重复性和透明性。
  • 关键思路
    论文的关键思路是构建高质量的开源数据集(如OpenThoughts2-1M和OpenThoughts3)并通过系统化实验优化数据生成管道。相比现有研究,这种方法强调使用公开资源实现与闭源模型相当甚至更优的性能,并且通过大规模实验验证不同参数对模型效果的影响。
  • 其它亮点
    论文设计了超过1000个受控实验以优化数据生成流程,并基于此创建了包含1.2M样本的OpenThoughts3数据集。实验结果表明,OpenThoughts3-7B模型在AIME、LiveCodeBench和GPQA等基准上显著超越了DeepSeek-R1-Distill-Qwen-7B。所有数据集和模型均已开源,网址为https://openthoughts.ai,为未来研究提供了宝贵资源。
  • 相关研究
    近期相关工作包括DeepSeek发布的R1系列模型、Qwen系列大模型以及Google的Gemini系列。这些研究均关注多模态推理能力或特定任务上的性能优化。此外,类似项目如LIMA和Helm也致力于开发开源推理数据集,但其规模和针对性可能不及本研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论