DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

向作者提问

NEW

简介

基于小语言模型的边缘级深度研究智能体，因其在成本、延迟和隐私保护方面的优势，非常适用于实际场景部署。本文聚焦于如何在开放数据资源有限的前提下，通过提升数据质量和数据利用率，训练出性能强劲的小型深度研究智能体。我们提出了DR-Venus——一款面向边缘级部署的前沿40亿参数（4B）深度研究智能体，其全部训练过程均基于公开可用的数据。我们的训练方案分为两个阶段：第一阶段采用智能体式监督微调（agentic SFT），以构建基础的智能体能力；该阶段结合严格的清洗流程与长周期任务轨迹的重采样策略，同步提升数据质量与数据利用效率；第二阶段则引入智能体式强化学习（agentic RL），进一步增强智能体在长周期深度研究任务中的执行可靠性。为使强化学习在此类小型智能体上切实有效，我们在IGPO算法基础上进行了改进，设计了基于信息增益与格式感知正则化的逐轮（turn-level）奖励函数，从而显著提高监督信号的密度，并优化每一轮动作的信用分配（credit assignment）。DR-Venus-4B仅使用约1万条公开数据完成训练，在多个深度研究基准测试中，性能显著超越所有参数量低于90亿（9B）的既有智能体模型，同时大幅缩小了与参数量高达300亿（30B）级别大模型之间的性能差距。进一步分析表明，40亿参数级别的智能体已展现出远超预期的强劲性能潜力，这既凸显了小型模型在实际部署中的广阔前景，也印证了“测试时扩展”（test-time scaling）在此类边缘场景中的重要价值。为推动边缘级深度研究智能体的可复现研究，我们已开源全部模型权重、训练代码及核心训练方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在有限开放数据（约10K样本）约束下，训练出具备强长程推理、多步工具调用与自主研究能力的边缘级小语言模型（4B参数）代理，解决小模型在深度研究任务中因数据稀缺、监督稀疏、信用分配困难导致的执行不可靠问题。该问题具有现实紧迫性——大模型难以部署于边缘设备，而现有小代理在复杂科研任务（如文献综述、实验设计、跨源验证）上性能断崖式下降，且缺乏系统性训练范式。
关键思路

提出两阶段轻量级代理训练范式：第一阶段采用‘智能体式监督微调（Agentic SFT）’，通过严格轨迹清洗+长程轨迹重采样提升数据质量与利用效率；第二阶段引入改进型IGPO强化学习，设计基于信息增益（Information Gain）与格式感知正则化（Format-aware Regularization）的细粒度‘回合级奖励’，显著增强小模型在每一步动作上的监督密度与信用归因精度——这是首次将信息论驱动的奖励建模与格式约束显式融入小模型代理RL训练。
其它亮点

• 在仅10K开放数据上训练出DR-Venus-4B，全面超越所有<9B参数的开源研究代理（如SciAgents-7B、AgentLM-8B），并在DeepResearchBench、SciREX、AgentBench-Research等基准上逼近30B级闭源系统（差距<8%）；• 首次实证表明：4B模型在测试时通过推理策略扩展（test-time scaling，如自反思重规划、多路径投票）可释放远超参数规模预期的能力上限；• 全流程开源：模型权重、训练代码、清洗后的高质量轨迹数据集、RL奖励函数实现及详细recipe文档均已公开；• 关键发现：数据质量（而非数量）和监督粒度（而非模型大小）是小代理性能跃迁的瓶颈，为边缘AI研究提供新方法论。
相关研究

‘SciAgents: A Benchmark for Scientific Reasoning with LLMs’ (ACL 2024); ‘AgentLM: Open-Source Agent Language Models’ (NeurIPS 2023 Datasets & Benchmarks); ‘IGPO: Information-Guided Policy Optimization for LLM Agents’ (ICML 2024); ‘TinyAgent: Efficient Agentic Reasoning via Token-Level Distillation’ (EMNLP 2023); ‘EdgeLLM: Optimizing Large Language Models for Edge Devices’ (MobiSys 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问