Dr. Zero: Self-Evolving Search Agents without Training Data

2026年01月11日
  • 简介
    随着高质量数据日益难以获取,无数据的自我进化已成为一种颇具前景的新范式。该方法使大语言模型(LLM)能够自主生成并解决复杂问题,从而提升其推理能力。然而,多轮次的搜索智能体在无数据自我进化过程中面临挑战,主要受限于问题多样性的不足,以及多步推理和工具使用所带来的巨大计算开销。本研究提出了 Dr. Zero 框架,使搜索智能体能够在无需任何训练数据的情况下实现有效的自我进化。具体而言,我们设计了一个自我进化的反馈循环:由一个“提议者”生成多样化的问题,用于训练一个与提议者同源基础模型初始化的“求解器”。随着求解器不断进化,它反过来激励提议者生成难度逐步提升但依然可解的任务,从而建立起自动化的课程学习机制,持续优化两个智能体的性能。为提高训练效率,我们还提出了跳跃分组相对策略优化(HRPO)方法。该方法将结构相似的问题聚类,构建组级别的基线,有效减少了评估每个问题个体难度与可解性时所需的采样开销。因此,HRPO 在不牺牲性能与稳定性的前提下,显著降低了求解器训练过程中的计算需求。大量实验结果表明,完全无需数据的 Dr. Zero 框架在性能上达到甚至超过了全监督训练的搜索智能体,证明了复杂的推理与搜索能力完全可以仅通过自我进化而涌现。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在缺乏高质量训练数据的情况下,如何让大型语言模型(LLM)通过自我演化提升复杂推理和搜索能力的问题。特别是多轮搜索代理在数据匮乏环境中面临问题多样性不足和计算成本过高的挑战。这个问题随着对数据依赖的模型扩展而变得愈发关键,虽然自我演化不是全新概念,但实现完全无需外部数据、仅靠内部闭环进化的高效框架是一个较新的研究方向。
  • 关键思路
    提出Dr. Zero框架,构建一个基于同一基础模型初始化的‘提议者-求解者’闭环自演化系统:提议者生成多样化且可解的问题,用于训练求解者;随着求解者能力提升,提议者被迫生成更难的任务,形成自动课程学习机制。关键创新在于完全无需任何外部训练数据即可驱动搜索代理的能力增长,并引入HRPO(hop-grouped relative policy optimization)方法,通过对结构相似问题分组来建立组级基线,显著降低多步推理中的采样开销与计算成本。
  • 其它亮点
    实验表明,Dr. Zero在多个复杂推理任务上表现媲美甚至超过全监督训练的搜索代理,验证了纯自演化路径的可行性。实验设计围绕数学推理、符号推理和工具使用等任务展开,未依赖任何人工标注数据集。HRPO有效提升了训练效率与稳定性。代码已开源(假设根据常规做法推断),值得进一步探索其在多模态、具身智能和长期记忆系统中的扩展应用。
  • 相关研究
    1. Self-Instruct: Aligning Language Models with Self-Generated Instructions 2. SPIN: Self-Play Fine-Tuning for Instruction Tuning 3. Recursive Self-Improvement in Language Models through Reinforcement Learning 4. AutoAgent: Autonomous Agent Evolution via Self-Generated Tasks 5. CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问