DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

向作者提问

NEW

简介

深度研究模型通过多步骤的研究过程，生成篇幅较长且具备良好引用来源的回答。然而，目前大多数开源的深度研究模型都是通过强化学习结合可验证奖励（RLVR）的方式，在易于验证的短答案问答任务上进行训练，这种方法难以推广到现实中的长篇幅任务。为此，我们提出了基于演进式评分标准的强化学习方法（RLER），在该方法中构建并维护一组与策略模型共同演进的评分标准；这使得评分标准能够整合模型新探索到的信息，并提供具有区分性、基于当前策略的反馈信号。借助RLER方法，我们开发了深度研究版Tulu（DR Tulu-8B），这是首个直接针对开放性、长篇幅深度研究任务进行训练的开源模型。在涵盖科学、医疗健康及通用领域的四项长篇幅深度研究基准测试中，DR Tulu显著优于现有的开源深度研究模型，表现达到甚至超过专有的深度研究系统，同时模型规模更小、每次查询的成本更低。为促进后续研究，我们公开了全部数据、模型和代码，包括我们基于MCP的新一代深度研究智能体系统架构。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的开放深度研究模型通常在可通过强化学习验证奖励（RLVR）的易验证短问答任务上训练，难以扩展到现实中的长篇、开放式深度研究任务。论文旨在解决如何有效训练开放模型以执行复杂、多步骤、长篇且有良好引用的深度研究这一问题，这是一个尚未被充分探索的新问题。
关键思路

提出了一种名为‘基于演化评分标准的强化学习’（Reinforcement Learning with Evolving Rubrics, RLER）的新方法，其核心思想是让评分标准（rubrics）在训练过程中与策略模型共同演化。这使得评分标准能够动态吸收模型新探索的知识，并提供更具区分性、适应当前策略的反馈，从而支持对长篇、开放性研究输出的有效训练。
其它亮点

基于RLER成功开发了Deep Research Tulu（DR Tulu-8B），这是首个直接为开放式长篇深度研究任务训练的开源模型。该模型在科学、医疗和通用领域的四个长篇研究基准上显著优于现有开源模型，性能媲美甚至超过专有系统，同时体积更小、成本更低。作者开源了全部数据、模型和代码，并发布了基于MCP的智能体基础设施，极大推动了后续研究。实验设计覆盖多领域长文本生成与验证，强调可复现性和实用性。
相关研究

1. Reinforcement Learning from Human Feedback (RLHF): Scaling to Complex Tasks 2. Chain-of-Thought Reasoning in Large Language Models 3. Self-Taught Reasoner (STaR): Learning to Reason from its Own Latent Thoughts 4. AutoGPT: Autonomous Task Planning and Execution with Language Models 5. Reflexion: Language Agents with Verifiable Self-Correction

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问