- 简介基于大语言模型(LLM)的网页智能体在知识密集型任务中表现出色,但在ReAct等范式下受限于上下文窗口容量。涉及多个实体、错综复杂关系以及高度不确定性的复杂查询需要大量搜索循环,往往在尚未得出完整解答之前就迅速耗尽上下文预算。为应对这一挑战,我们提出了ReSum——一种通过周期性上下文摘要实现无限探索的新范式。ReSum将不断增长的交互历史压缩为紧凑的推理状态,在保持对先前发现的记忆的同时,规避了上下文长度的限制。为了实现该范式的有效适配,我们进一步提出ReSum-GRPO方法,将GRPO算法与分段轨迹训练及优势值广播机制相结合,使智能体能够适应基于摘要的推理模式。在三个基准测试中,针对不同规模的网页智能体开展的大量实验表明,ReSum相较ReAct平均绝对性能提升4.5%,而经过ReSum-GRPO训练后,性能进一步提升最高达8.2%。值得注意的是,仅使用1,000个训练样本的情况下,我们的WebResummer-30B(即基于WebSailor-30B并经ReSum-GRPO训练的版本)在BrowseComp-zh上实现了33.3%的Pass@1得分,在BrowseComp-en上达到18.3%,超越了现有的开源网页智能体。
-
- 图表
- 解决问题论文试图解决大型语言模型(LLM)在基于ReAct等范式执行知识密集型任务时,因上下文窗口限制而难以处理涉及多个实体、复杂关系和高不确定性的复杂查询的问题。这类任务需要大量搜索循环,迅速耗尽上下文预算,导致无法完成推理。这个问题随着Web代理的广泛应用变得愈发突出,虽然上下文长度扩展技术正在发展,但高效利用有限上下文仍是一个关键挑战。
- 关键思路提出ReSum范式,通过周期性地对交互历史进行摘要生成紧凑的推理状态,实现无限探索能力。该方法在不增加上下文长度的前提下,保持对先前发现的记忆,从而绕过上下文限制。进一步提出ReSum-GRPO训练框架,结合分段轨迹训练和优势广播机制,使代理适应基于摘要的推理模式,提升长期推理一致性与决策质量。
- 其它亮点在三个基准上对不同规模的Web代理进行了广泛实验,ReSum相比ReAct平均提升4.5%的绝对性能,ReSum-GRPO进一步带来最高达8.2%的增益。仅用1K训练样本训练的WebResummer-30B在BrowseComp-zh上达到33.3% Pass@1,在BrowseComp-en上达到18.3%,超越现有开源Web代理。代码与模型已开源,为后续研究提供基础。实验设计涵盖多语言、多任务场景,验证了方法的鲁棒性和可迁移性。
- 1. ReAct: Synergizing Reasoning and Acting in Language Models 2. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 3. Tool Learning with Large Language Models: A Survey 4. LongNet: Scaling Transformers to 1,000,000,000 Tokens 5. RETRO: Retrieval-Enhanced Transformer for Language Generation
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流