怎么让Agent越用越聪明？NUS团队提出新框架：记忆像代码一样可以迭代

一个当前还能稳定完成任务的 Agent，在经历几轮系统版本更新之后，还能否继续保持可靠？

真正的难点，在于它需要适应不断变化的环境。过去的大多 Agent 基准默认面对的都是静态环境，但接口、规则、代码库和用户偏好都可能持续变化，因此很难评估 Agent 在持续演化环境中的可靠性。

针对这个问题，来自新加坡国立大学的研究团队及其合作者提出了评测基准 EvoArena，并设计了用于追踪状态更新的补丁式记忆框架 EvoMem。

论文链接：https://arxiv.org/abs/2606.13681

结果表明，现有 Agent 仍难以应对持续演化环境。在 EvoArena 上的平均准确率仅为 39.6%。但加入 EvoMem 后，Agent 的表现明显改善：不仅在衡量连续任务完成能力的链级（chain-level）指标上平均提升了 3.7%，也在 GAIA 和 LoCoMo 上取得了稳定提升。

图｜EvoArena 上的步骤准确率与链级准确率对比。

EvoArena 是如何设计的？

EvoArena 的核心思路，是在任务目标不变的前提下持续改变接口、规则、依赖、代码状态和用户偏好，以评测 Agent 的持续适应能力。研究团队据此设计了终端工作流、软件仓库和用户偏好三类任务。在评测指标上，step accuracy 反映单步任务的平均准确率，chain accuracy 则反映同一条演化链上的任务能否全部成功完成。

图｜EvoArena 构建流程

终端工作流（Terminal-Bench-Evo）：关注终端工作流随版本推进而发生的变化，任务目标不变，但部署方式、访问路径、权限要求、分支策略、依赖项和测试条件都会随着版本更新而改变。

图｜Terminal-Bench-Evo 示例。

软件仓库（SWE-Chain-Evo）：关注软件仓库在连续迭代中的演化，新需求需要建立在不断累积的代码状态之上，同时保持旧功能稳定可用。

图｜SWE-Chain-Evo 的一个演化链示例。

用户偏好（PersonaMem-Evo）：关注长对话中的偏好变化。随着对话推进，新的偏好线索会不断出现，Agent 既要根据当前偏好作答，也要避免把已经过时的信息当作当前判断的依据。

图｜PersonaMem-Evo 的演化链示例。

配合这套评测，研究团队进一步提出 EvoMem，采用基于补丁的记忆演化机制（Patch- Based Memory Evolution）。它保留原有记忆系统，同时在关键记忆更新时追加补丁历史，记录修改前后内容、更新原因、摘要和相关证据。推理时，Agent 会同时检索最新记忆与相关历史补丁，在需要理解状态演化时获得更完整的上下文。与此同时，EvoMem 也保留了原有 Agent 接口，可直接适配 Terminus2、OpenHands、A-Mem 和 Memento-Skill。

图｜EvoMem 概述。

实验结果

EvoArena 上的整体结果显示，现有 Agent 对信息演化的持续追踪能力仍然有限。在 EvoArena 上，多种 Agent 与Backbone 组合的平均 Step 准确率仅为 39.6%，且进入 chain-level 评测后还会进一步下降。例如，GPT-5.5 在 Terminal-Bench-Evo 上的 Chain 准确率只有 31.8%，Gemini-3.1-Pro 在 PersonaMem-Evo 上也只有 38.8%。这说明，现有 Agent 即使能完成单步任务，也未必能在持续演化的环境中保持稳定表现。

图｜EvoArena 的主要结果。

引入 EvoMem 后，EvoArena 三个子任务的结果均有提升，而且对更严格的 chain 指标改善更明显。平均来看，Terminal-Bench-Evo 的 step 和 chain 准确率分别提升 2.4 和 6.1 个百分点，SWE-Chain-Evo 分别提升 0.4 和 2.1 个百分点，PersonaMem-Evo 分别提升 1.7 和 3.2 个百分点。这说明 EvoMem 的作用不只是增加记忆量，更在于帮助 Agent 抓住关键变化，并把这些变化用到后续任务中。

在 SWE-Chain-Evo 上，EvoMem 还降低了回归错误。具体来看，它将平均回归错误率降至 6.32%，说明 Agent 在适应新需求的同时，也更能保住已有功能，不容易因为新改动破坏旧行为。

图｜SWE-CHAIN-EVO 上的回归错误分析。

在 PersonaMem-Evo 上，EvoMem 对两类更依赖长期演化信息的问题帮助尤其明显： multi-pattern synthesis 和 temporal trajectory 两类题型的准确率都提升了 5.2 个百分点。同时，它也提升了对偏好证据的完整捕获能力，说明这种补丁式记忆不仅保留了更多历史信息，也更有助于模型恢复完整的偏好演化轨迹。

图｜PERSONAMEM-EVO 准确率细分。

不过，EvoMem 的效果并不局限于 EvoArena。将其接入六个模型后，研究团队发现，GAIA 的平均成绩提升了 6.5 个百分点，LoCoMo 也提升了 3.3 个百分点。以具体模型为例，Deepseek-V4-Pro 在 GAIA 上从 70.0% 升至 80.0%，Gemini-3.1-Pro 在 LoCoMo 上 21.1% 升至 28.6%。

图｜典型基准测试的主要结果。

不足与未来方向

当然，EvoArena 和 EvoMem 并非完美，依然存在一些亟待解决的问题。

目前，EvoArena 覆盖的环境变化形式仍主要集中在终端工作流、软件仓库和长程用户偏好三类场景。未来，这类持续演化过程还将扩展到更多环境中，包括机器人、具身交互、科学工作流、多智能体协作以及其他长周期运行系统。

研究团队指出，PersonaMem-Evo 目前对话规模和角色多样性仍然有限。未来，这一部分评测还需要继续扩充角色数量和数据规模，以提升覆盖范围。

其次，EvoMem 在部分设置下并不能稳定带来提升。因为历史补丁有时会引入歧义，使模型更难判断哪个状态才是当前有效版本。未来，还需要继续改进补丁检索和使用方式，减少这类干扰。

最后，EvoMem 在更长链条和更复杂场景下的检索效率，还有待进一步验证。未来，还需要继续优化补丁检索效率，并提升这类场景下的运行稳定性。

更多技术细节，详见原论文。

作者：夏千斯

如需转载或投稿，请直接在本文章评论区内留言

内容中包含的图片若涉及版权问题，请及时与我们联系删除

怎么让Agent越用越聪明？NUS团队提出新框架：记忆像代码一样可以迭代

EvoArena 是如何设计的？

实验结果

不足与未来方向

评论列表

评论