NEW

Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning

ByteDance Seed ,

: ,

Jiaze Chen ,

Tiantian Fan ,

Xin Liu ,

Lingjun Liu ,

Zhiqi Lin ,

Mingxuan Wang ,

Chengyi Wang ,

Xiangpeng Wei ,

Wenyuan Xu ,

Yufeng Yuan ,

Yu Yue ,

Lin Yan ,

Qiying Yu ,

Xiaochen Zuo ,

Chi Zhang ,

Ruofei Zhu ,

Zhecheng An ,

Zhihao Bai ,

Yu Bao ,

Xingyan Bin ,

Jiangjie Chen ,

Feng Chen ,

Hongmin Chen ,

Riwei Chen ,

Liangqiang Chen ,

Zixin Chen ,

Jinsong Chen ,

Siyan Chen ,

Kaiyuan Chen ,

Zhi Chen ,

Jin Chen ,

Jiecao Chen ,

Jinxin Chi ,

Weinan Dai ,

Ning Dai ,

Jiahui Dai ,

Shihan Dou ,

Yantao Du ,

Zhengyin Du ,

Jianhui Duan ,

Chen Dun ,

Ting-Han Fan ,

Jiazhan Feng ,

Junda Feng ,

Ziyuan Feng ,

Yuwei Fu ,

Wenqi Fu ,

Hanjie Fu ,

Hao Ge ,

Hongyi Guo ,

Mingji Han ,

Li Han ,

Wenhao Hao ,

Xintong Hao ,

Qianyu He ,

Jerry He ,

Feng He ,

Wen Heng ,

Zehua Hong ,

Qi Hou ,

Liang Hu ,

Shengding Hu ,

Nan Hu ,

Kai Hua ,

Qi Huang ,

Ziyue Huang ,

Hongzhi Huang ,

Zihao Huang ,

Ting Huang ,

Wenhao Huang ,

Wei Jia ,

Bin Jia ,

Xiaoying Jia ,

Yuhua Jiang ,

Haobin Jiang ,

Ziheng Jiang ,

Kaihua Jiang ,

Chengquan Jiang ,

Jianpeng Jiao ,

Xiaoran Jin ,

Xing Jin ,

Xunhao Lai ,

Zheng Li ,

Xiang Li ,

Liyi Li ,

Hongkai Li ,

Zheng Li ,

Shengxian Wan ,

Ya Wang ,

Yunshui Li ,

Chenggang Li ,

Niuniu Li ,

Siyu Li ,

Xi Li ,

Xiao Li ,

Aoyan Li ,

Yuntao Li ,

Nianning Liang ,

Xinnian Liang ,

Haibin Lin ,

Weijian Lin ,

Ye Lin ,

Zhicheng Liu ,

Guanlin Liu ,

Chenxiao Liu ,

Yan Liu ,

Gaohong Liu ,

Juncai Liu ,

Chundian Liu ,

Deyi Liu ,

Kaibo Liu ,

Siyao Liu ,

Qi Liu ,

Yongfei Liu ,

Kang Liu ,

Gan Liu ,

Boyi Liu ,

Rui Long ,

Weiqiang Lou ,

Chenwei Lou ,

Xiang Luo ,

Yao Luo ,

Caiping Lv ,

Heyang Lv ,

Bole Ma ,

Qianli Ma ,

Hongzhi Ma ,

Yiyuan Ma ,

Jin Ma ,

Wenchang Ma ,

Tingting Ma ,

Chen Mao ,

Qiyang Min ,

Zhe Nan ,

Guanghan Ning ,

Jinxiang Ou ,

Haojie Pan ,

Renming Pang ,

Yanghua Peng ,

Tao Peng ,

Lihua Qian ,

Mu Qiao ,

Meng Qu ,

Cheng Ren ,

Hongbin Ren ,

Yong Shan ,

Wei Shen ,

Ke Shen ,

Kai Shen ,

Guangming Sheng ,

Jinlong Shi ,

Wenlei Shi ,

Guang Shi ,

Shuai Shuai Cao ,

Yuxin Song ,

Zuquan Song ,

Jing Su ,

Yifan Sun ,

Tao Sun ,

Zewei Sun ,

Borui Wan ,

Zihan Wang ,

Xiaohui Wang ,

Xi Wang ,

Shuguang Wang ,

Jun Wang ,

Qinlong Wang ,

Chenyuan Wang ,

Shuai Wang ,

Zihan Wang ,

Changbao Wang ,

Jiaqiang Wang ,

Shihang Wang ,

Xuwu Wang ,

Zaiyuan Wang ,

Yuxuan Wang ,

Wenqi Wang ,

Taiqing Wang ,

Chengzhi Wei ,

Houmin Wei ,

Ziyun Wei ,

Shufa Wei ,

Zheng Wu ,

Yonghui Wu ,

Yangjun Wu ,

Bohong Wu ,

Shuang Wu ,

Jingqiao Wu ,

Ning Wu ,

Shuangzhi Wu ,

Jianmin Wu ,

Chenguang Xi ,

Fan Xia ,

Yuqiao Xian ,

Liang Xiang ,

Boren Xiang ,

Bowen Xiao ,

Zhen Xiao ,

Xia Xiao ,

Yongsheng Xiao ,

Chao Xin ,

Shulin Xin ,

Yuwen Xiong ,

Jingjing Xu ,

Ziwen Xu ,

Chenyin Xu ,

Jiayi Xu ,

Yifan Xu ,

Wei Xu ,

Yufei Xu ,

Shikun Xu ,

Shipeng Yan ,

Shen Yan ,

Qingping Yang ,

Xi Yang ,

Tianhao Yang ,

Yuehang Yang ,

Yuan Yang ,

Ximing Yang ,

Zeyu Yang ,

Guang Yang ,

Yifan Yang ,

Xuesong Yao ,

Bairen Yi ,

Fan Yin ,

Jianian Yin ,

Ziqiang Ying ,

Xiangyu Yu ,

Hongli Yu ,

Song Yu ,

Menghan Yu ,

Huan Yu ,

Siyu Yuan ,

Jun Yuan ,

Yutao Zeng ,

Tianyang Zhan ,

Zheng Zhang ,

Yun Zhang ,

Mofan Zhang ,

Wang Zhang ,

Ru Zhang ,

Zhi Zhang ,

Tianqi Zhang ,

Xinyi Zhang ,

Zhexi Zhang ,

Sijun Zhang ,

Wenqiang Zhang ,

Xiangxiang Zhang ,

Yongtao Zhang ,

Yuyu Zhang ,

Ge Zhang ,

He Zhang ,

Yue Zhang ,

Renjie Zheng ,

Ningxin Zheng ,

Zhuolin Zheng ,

Yaowei Zheng ,

Chen Zheng ,

Xiaoyun Zhi ,

Wanjun Zhong ,

Cheng Zhong ,

Zheng Zhong ,

Baoquan Zhong ,

Xun Zhou ,

Na Zhou ,

Huan Zhou ,

Hang Zhu ,

Defa Zhu ,

Wenjia Zhu ,

Lei Zuo

热度 1311

2025年04月10日

简介

我们提出了Seed1.5-Thinking，该模型能够在回应之前通过思考进行推理，从而在广泛的基准测试中取得更好的表现。Seed1.5-Thinking在AIME 2024上得分为86.7，在Codeforces上得分为55.0，在GPQA上得分为77.3，展现出在STEM和编程领域的卓越推理能力。除了推理任务外，该方法还在不同领域的多样化任务中表现出显著的泛化能力。例如，在非推理任务中，其胜率比DeepSeek R1高出8%，表明其更广泛的应用潜力。与其它最先进的推理模型相比，Seed1.5-Thinking是一个相对较小的专家混合（MoE）模型，具有200亿激活参数和2000亿总参数。作为评估通用推理能力的一部分工作，我们开发了两个内部基准测试——BeyondAIME和Codeforces，并将公开发布这两个基准以支持未来的研究。模型试用链接：https://www.volcengine.com/experience/ark。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决如何通过增强模型的推理能力来提升其在复杂任务（如数学竞赛、编程挑战）中的表现，并验证小规模激活的大模型是否能在多样化任务中实现高效泛化。这是一个具有挑战性的问题，但并非全新领域，许多研究已在探索推理增强方法。
关键思路

关键思路是引入‘Seed1.5-Thinking’方法，让模型先通过内部思考再输出结果，从而改进推理性能。相比现有研究，该方法结合了Mixture-of-Experts (MoE) 架构，尽管总参数量达到200亿，但每次仅激活20亿参数，显著降低了计算成本，同时保持高性能。
其它亮点

论文在AIME、Codeforces和GPQA等基准测试中展示了卓越性能，并开发了两个新内部基准（BeyondAIME和Codeforces），计划公开以支持未来研究。此外，模型不仅在推理任务中表现出色，在非推理任务上也超越了DeepSeek R1（8%胜率）。代码和模型体验链接已提供：https://www.volcengine.com/experience/ark，为后续研究提供了良好的起点。
相关研究

最近的相关研究包括DeepMind的AlphaCode（专注于编程竞赛）、通义千问Qwen（多模态与推理能力结合）、以及Meta的Llama系列（特别是Llama2-Reasoner）。其他值得注意的工作有：《Chain of Thought Prompting Elicits Reasoning in Large Language Models》和《Rethinking the Scaling Laws for Language Model Performance》。这些研究共同推动了高效推理模型的设计与评估方法的发展。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问