- 简介基于小语言模型的边缘级深度研究智能体,因其在成本、延迟和隐私保护方面的优势,非常适用于实际场景部署。本文聚焦于如何在开放数据资源有限的前提下,通过提升数据质量和数据利用率,训练出性能强劲的小型深度研究智能体。我们提出了DR-Venus——一款面向边缘级部署的前沿40亿参数(4B)深度研究智能体,其全部训练过程均基于公开可用的数据。我们的训练方案分为两个阶段:第一阶段采用智能体式监督微调(agentic SFT),以构建基础的智能体能力;该阶段结合严格的清洗流程与长周期任务轨迹的重采样策略,同步提升数据质量与数据利用效率;第二阶段则引入智能体式强化学习(agentic RL),进一步增强智能体在长周期深度研究任务中的执行可靠性。为使强化学习在此类小型智能体上切实有效,我们在IGPO算法基础上进行了改进,设计了基于信息增益与格式感知正则化的逐轮(turn-level)奖励函数,从而显著提高监督信号的密度,并优化每一轮动作的信用分配(credit assignment)。DR-Venus-4B仅使用约1万条公开数据完成训练,在多个深度研究基准测试中,性能显著超越所有参数量低于90亿(9B)的既有智能体模型,同时大幅缩小了与参数量高达300亿(30B)级别大模型之间的性能差距。进一步分析表明,40亿参数级别的智能体已展现出远超预期的强劲性能潜力,这既凸显了小型模型在实际部署中的广阔前景,也印证了“测试时扩展”(test-time scaling)在此类边缘场景中的重要价值。为推动边缘级深度研究智能体的可复现研究,我们已开源全部模型权重、训练代码及核心训练方法。
-
- 图表
- 解决问题如何在有限开放数据(约10K样本)约束下,训练出具备强长程推理、多步工具调用与自主研究能力的边缘级小语言模型(4B参数)代理,解决小模型在深度研究任务中因数据稀缺、监督稀疏、信用分配困难导致的执行不可靠问题。该问题具有现实紧迫性——大模型难以部署于边缘设备,而现有小代理在复杂科研任务(如文献综述、实验设计、跨源验证)上性能断崖式下降,且缺乏系统性训练范式。
- 关键思路提出两阶段轻量级代理训练范式:第一阶段采用‘智能体式监督微调(Agentic SFT)’,通过严格轨迹清洗+长程轨迹重采样提升数据质量与利用效率;第二阶段引入改进型IGPO强化学习,设计基于信息增益(Information Gain)与格式感知正则化(Format-aware Regularization)的细粒度‘回合级奖励’,显著增强小模型在每一步动作上的监督密度与信用归因精度——这是首次将信息论驱动的奖励建模与格式约束显式融入小模型代理RL训练。
- 其它亮点• 在仅10K开放数据上训练出DR-Venus-4B,全面超越所有<9B参数的开源研究代理(如SciAgents-7B、AgentLM-8B),并在DeepResearchBench、SciREX、AgentBench-Research等基准上逼近30B级闭源系统(差距<8%);• 首次实证表明:4B模型在测试时通过推理策略扩展(test-time scaling,如自反思重规划、多路径投票)可释放远超参数规模预期的能力上限;• 全流程开源:模型权重、训练代码、清洗后的高质量轨迹数据集、RL奖励函数实现及详细recipe文档均已公开;• 关键发现:数据质量(而非数量)和监督粒度(而非模型大小)是小代理性能跃迁的瓶颈,为边缘AI研究提供新方法论。
- ‘SciAgents: A Benchmark for Scientific Reasoning with LLMs’ (ACL 2024); ‘AgentLM: Open-Source Agent Language Models’ (NeurIPS 2023 Datasets & Benchmarks); ‘IGPO: Information-Guided Policy Optimization for LLM Agents’ (ICML 2024); ‘TinyAgent: Efficient Agentic Reasoning via Token-Level Distillation’ (EMNLP 2023); ‘EdgeLLM: Optimizing Large Language Models for Edge Devices’ (MobiSys 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流