ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

向作者提问

NEW

简介

基于大语言模型（LLM）的网页智能体在知识密集型任务中表现出色，但在ReAct等范式下受限于上下文窗口容量。涉及多个实体、错综复杂关系以及高度不确定性的复杂查询需要大量搜索循环，往往在尚未得出完整解答之前就迅速耗尽上下文预算。为应对这一挑战，我们提出了ReSum——一种通过周期性上下文摘要实现无限探索的新范式。ReSum将不断增长的交互历史压缩为紧凑的推理状态，在保持对先前发现的记忆的同时，规避了上下文长度的限制。为了实现该范式的有效适配，我们进一步提出ReSum-GRPO方法，将GRPO算法与分段轨迹训练及优势值广播机制相结合，使智能体能够适应基于摘要的推理模式。在三个基准测试中，针对不同规模的网页智能体开展的大量实验表明，ReSum相较ReAct平均绝对性能提升4.5%，而经过ReSum-GRPO训练后，性能进一步提升最高达8.2%。值得注意的是，仅使用1,000个训练样本的情况下，我们的WebResummer-30B（即基于WebSailor-30B并经ReSum-GRPO训练的版本）在BrowseComp-zh上实现了33.3%的Pass@1得分，在BrowseComp-en上达到18.3%，超越了现有的开源网页智能体。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型语言模型（LLM）在基于ReAct等范式执行知识密集型任务时，因上下文窗口限制而难以处理涉及多个实体、复杂关系和高不确定性的复杂查询的问题。这类任务需要大量搜索循环，迅速耗尽上下文预算，导致无法完成推理。这个问题随着Web代理的广泛应用变得愈发突出，虽然上下文长度扩展技术正在发展，但高效利用有限上下文仍是一个关键挑战。
关键思路

提出ReSum范式，通过周期性地对交互历史进行摘要生成紧凑的推理状态，实现无限探索能力。该方法在不增加上下文长度的前提下，保持对先前发现的记忆，从而绕过上下文限制。进一步提出ReSum-GRPO训练框架，结合分段轨迹训练和优势广播机制，使代理适应基于摘要的推理模式，提升长期推理一致性与决策质量。
其它亮点

在三个基准上对不同规模的Web代理进行了广泛实验，ReSum相比ReAct平均提升4.5%的绝对性能，ReSum-GRPO进一步带来最高达8.2%的增益。仅用1K训练样本训练的WebResummer-30B在BrowseComp-zh上达到33.3% Pass@1，在BrowseComp-en上达到18.3%，超越现有开源Web代理。代码与模型已开源，为后续研究提供基础。实验设计涵盖多语言、多任务场景，验证了方法的鲁棒性和可迁移性。
相关研究

1. ReAct: Synergizing Reasoning and Acting in Language Models 2. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 3. Tool Learning with Large Language Models: A Survey 4. LongNet: Scaling Transformers to 1,000,000,000 Tokens 5. RETRO: Retrieval-Enhanced Transformer for Language Generation

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问