Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning

2025年04月10日
  • 简介
    我们提出了Seed1.5-Thinking,该模型能够在回应之前通过思考进行推理,从而在广泛的基准测试中取得更好的表现。Seed1.5-Thinking在AIME 2024上得分为86.7,在Codeforces上得分为55.0,在GPQA上得分为77.3,展现出在STEM和编程领域的卓越推理能力。除了推理任务外,该方法还在不同领域的多样化任务中表现出显著的泛化能力。例如,在非推理任务中,其胜率比DeepSeek R1高出8%,表明其更广泛的应用潜力。与其它最先进的推理模型相比,Seed1.5-Thinking是一个相对较小的专家混合(MoE)模型,具有200亿激活参数和2000亿总参数。作为评估通用推理能力的一部分工作,我们开发了两个内部基准测试——BeyondAIME和Codeforces,并将公开发布这两个基准以支持未来的研究。模型试用链接:https://www.volcengine.com/experience/ark。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决如何通过增强模型的推理能力来提升其在复杂任务(如数学竞赛、编程挑战)中的表现,并验证小规模激活的大模型是否能在多样化任务中实现高效泛化。这是一个具有挑战性的问题,但并非全新领域,许多研究已在探索推理增强方法。
  • 关键思路
    关键思路是引入‘Seed1.5-Thinking’方法,让模型先通过内部思考再输出结果,从而改进推理性能。相比现有研究,该方法结合了Mixture-of-Experts (MoE) 架构,尽管总参数量达到200亿,但每次仅激活20亿参数,显著降低了计算成本,同时保持高性能。
  • 其它亮点
    论文在AIME、Codeforces和GPQA等基准测试中展示了卓越性能,并开发了两个新内部基准(BeyondAIME和Codeforces),计划公开以支持未来研究。此外,模型不仅在推理任务中表现出色,在非推理任务上也超越了DeepSeek R1(8%胜率)。代码和模型体验链接已提供:https://www.volcengine.com/experience/ark,为后续研究提供了良好的起点。
  • 相关研究
    最近的相关研究包括DeepMind的AlphaCode(专注于编程竞赛)、通义千问Qwen(多模态与推理能力结合)、以及Meta的Llama系列(特别是Llama2-Reasoner)。其他值得注意的工作有:《Chain of Thought Prompting Elicits Reasoning in Large Language Models》和《Rethinking the Scaling Laws for Language Model Performance》。这些研究共同推动了高效推理模型的设计与评估方法的发展。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问