ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory

向作者提问

NEW

简介

随着大语言模型智能体在持续性现实角色中的日益广泛应用，它们自然会面对连续不断的任务流。然而，一个关键的局限在于，这些智能体无法从积累的交互历史中进行学习，导致它们不得不舍弃宝贵的实践经验，并重复过去的错误。我们提出了ReasoningBank，一种新颖的记忆框架，能够从智能体自身判断的成功与失败经历中提炼出可泛化的推理策略。在测试阶段，智能体从ReasoningBank中检索相关记忆以指导其交互行为，并将新的学习成果整合回记忆系统，从而使其能力随着时间推移不断提升。在此强大的经验学习机制基础上，我们进一步提出“记忆感知的测试时扩展”（MaTTS），通过扩大智能体的交互经验来加速并丰富其学习过程。通过为每个任务分配更多的计算资源，智能体能够生成大量且多样化的经验，为合成更高质量的记忆提供丰富的对比信号；而更优的记忆反过来又能引导更高效的扩展，从而在记忆机制与测试时扩展之间建立起强有力的协同效应。在网页浏览和软件工程基准测试中，ReasoningBank始终优于那些仅存储原始轨迹或仅保留成功任务流程的现有记忆机制，在有效性和效率方面均有提升；MaTTS则进一步放大了这些优势。这些发现确立了“以记忆驱动的经验扩展”作为一种全新的扩展维度，使智能体能够实现自我演化，并自然涌现出新的行为模式。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

随着大语言模型代理在持续现实任务中的广泛应用，它们面临无法从历史交互中有效学习的问题，导致重复错误和效率低下。现有方法通常存储原始轨迹或仅保存成功经验，缺乏对通用推理策略的提炼与复用，限制了代理的长期进化能力。这是一个日益重要但尚未被充分解决的新问题。
关键思路

提出ReasoningBank，一种新型记忆框架，能够从代理自我评估的成功与失败经验中提炼可泛化的推理策略；并在此基础上引入记忆感知测试时扩展（MaTTS），通过增加每项任务的计算资源生成多样化交互经验，从而加速高质量记忆的形成，实现记忆与测试时扩展之间的正向循环。其创新在于将自我反思、对比学习与动态记忆检索结合，推动代理在持续任务中自主演化。
其它亮点

在网页浏览和软件工程基准上，ReasoningBank显著优于仅存储原始轨迹或成功路径的记忆机制，提升任务完成率与执行效率；MaTTS进一步放大性能增益。实验设计涵盖多轮真实任务交互，验证了长期学习的有效性。作者开源了代码与记忆库构建流程，为后续研究提供基础。值得深入的方向包括跨任务迁移记忆、记忆压缩机制以及与强化学习的结合。
相关研究

1. 'Memorizing Transformers for Continual Learning' (ICML 2023) 2. 'Experience Replay in Language Agents' (NeurIPS 2022) 3. 'Self-Improvement from Failure in Language Models' (ICLR 2024) 4. 'Test-Time Scaling for Reasoning Tasks' (arXiv:2405.16895) 5. 'Agent Intrinsic Motivation via Memory Surprise' (CoRL 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问