- 简介深度研究模型通过多步骤的研究过程,生成篇幅较长且具备良好引用来源的回答。然而,目前大多数开源的深度研究模型都是通过强化学习结合可验证奖励(RLVR)的方式,在易于验证的短答案问答任务上进行训练,这种方法难以推广到现实中的长篇幅任务。为此,我们提出了基于演进式评分标准的强化学习方法(RLER),在该方法中构建并维护一组与策略模型共同演进的评分标准;这使得评分标准能够整合模型新探索到的信息,并提供具有区分性、基于当前策略的反馈信号。借助RLER方法,我们开发了深度研究版Tulu(DR Tulu-8B),这是首个直接针对开放性、长篇幅深度研究任务进行训练的开源模型。在涵盖科学、医疗健康及通用领域的四项长篇幅深度研究基准测试中,DR Tulu显著优于现有的开源深度研究模型,表现达到甚至超过专有的深度研究系统,同时模型规模更小、每次查询的成本更低。为促进后续研究,我们公开了全部数据、模型和代码,包括我们基于MCP的新一代深度研究智能体系统架构。
-
- 图表
- 解决问题现有的开放深度研究模型通常在可通过强化学习验证奖励(RLVR)的易验证短问答任务上训练,难以扩展到现实中的长篇、开放式深度研究任务。论文旨在解决如何有效训练开放模型以执行复杂、多步骤、长篇且有良好引用的深度研究这一问题,这是一个尚未被充分探索的新问题。
- 关键思路提出了一种名为‘基于演化评分标准的强化学习’(Reinforcement Learning with Evolving Rubrics, RLER)的新方法,其核心思想是让评分标准(rubrics)在训练过程中与策略模型共同演化。这使得评分标准能够动态吸收模型新探索的知识,并提供更具区分性、适应当前策略的反馈,从而支持对长篇、开放性研究输出的有效训练。
- 其它亮点基于RLER成功开发了Deep Research Tulu(DR Tulu-8B),这是首个直接为开放式长篇深度研究任务训练的开源模型。该模型在科学、医疗和通用领域的四个长篇研究基准上显著优于现有开源模型,性能媲美甚至超过专有系统,同时体积更小、成本更低。作者开源了全部数据、模型和代码,并发布了基于MCP的智能体基础设施,极大推动了后续研究。实验设计覆盖多领域长文本生成与验证,强调可复现性和实用性。
- 1. Reinforcement Learning from Human Feedback (RLHF): Scaling to Complex Tasks 2. Chain-of-Thought Reasoning in Large Language Models 3. Self-Taught Reasoner (STaR): Learning to Reason from its Own Latent Thoughts 4. AutoGPT: Autonomous Task Planning and Execution with Language Models 5. Reflexion: Language Agents with Verifiable Self-Correction
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流