- 简介超越人类认知的局限性是大语言模型训练中的一个关键前沿领域。像DeepResearch这样的专有智能体系统已经在极其复杂的寻址信息类基准测试(如BrowseComp)中展现出了超人的能力,这是此前无法实现的成就。我们认为,它们的成功依赖于一种目前开源模型中尚未具备的复杂推理模式:即在面对海量信息环境时,能够系统性地降低极端不确定性的能力。基于这一洞见,我们提出了WebSailor,这是一种完整的后训练方法论,旨在赋予模型这种关键能力。我们的方法包括通过结构化采样与信息模糊技术生成新颖的高不确定性任务、RFT冷启动策略,以及一种高效的智能体强化学习算法——复制采样策略优化(DUPO)。通过这一整套集成的训练流程,WebSailor在复杂的信息检索任务中显著优于所有现有的开源智能体,其表现已达到专有智能体的水平,大幅缩小了二者之间的能力差距。
- 图表
- 解决问题论文试图解决当前开源大语言模型(LLM)在复杂信息搜索任务中表现不如专有代理系统(如DeepResearch)的问题。具体来说,这些开源模型缺乏一种关键能力:在高度不确定的环境中系统性地降低不确定性以有效导航大规模信息空间的能力。这是一个相对较新的问题,因为它聚焦于认知限制超越和复杂推理能力的提升。
- 关键思路论文提出WebSailor,这是一种完整的后训练方法论,旨在通过生成高不确定性任务、冷启动RFT(可能为某种强化学习或推理框架)以及高效的代理式强化学习算法Duplicating Sampling Policy Optimization (DUPO),来赋予模型应对极端不确定性的能力。相比现有研究,其新意在于将结构化采样、信息模糊化与高效强化学习相结合,形成一个集成化的训练流程。
- 其它亮点{提出了一种新的训练范式,显著提升了开源代理在复杂信息搜索任务中的性能,接近甚至匹配了专有系统的水平,引入了DUPO这一高效的强化学习训练算法,用于处理高不确定性任务,实验设计基于结构化采样和信息模糊化生成新型高不确定性任务,并验证了该方法的有效性,可能使用了类似BrowseComp等复杂基准数据集进行评估,未来的研究方向包括进一步优化DUPO算法、探索更广泛的信息模糊策略,以及将WebSailor扩展到多模态场景}
- {"Agent-Based Reinforcement Learning for Complex Task Solving","Structured Sampling in Large Language Model Reasoning Enhancement","Information Obfuscation Techniques for Training Robust Question Answering Models","Cold Start Methods in Post-Training Language Model Alignment","Advances in Uncertainty Reduction for Open-Domain Information Retrieval"}
沙发等你来抢
去评论
评论
沙发等你来抢