长程游戏Agent新思路！浙大团队：把昂贵推理用在“刀刃”上

投稿作者：浙江大学 April团队

近年来，大语言模型与多模态模型正推动智能体进入更复杂的开放世界游戏。不同于传统问答，游戏智能体需要在持续变化的环境中完成长时程决策，包括观察画面、规划任务、使用工具以及失败恢复，而这也带来了 planning、latency 与 memory 之间的核心矛盾：深度推理更稳健，但成本高；轻量反应更高效，却容易陷入错误循环。

针对这一问题，来自浙江大学的研究团队及其合作者提出了 SPIKE——一种面向长程游戏智能体的自适应双控制框架。SPIKE 通过战略控制与快速反应协同，仅在必要时触发高成本推理，实现了效率与鲁棒性的平衡。在星露谷物语这款游戏的StarDojo Lite-100 基准上，SPIKE 在成功率、token 消耗与延迟等指标上均显著优于现有方法，验证了“选择性推理”相比“每步推理”更高效、更稳定。

论文：https://arxiv.org/pdf/2605.18636

GitHub：https://github.com/wencanjiang/SPIKE

图 1 | 长程游戏智能体的三难困境。单一战略控制器推理强但成本高，单一反应控制器成本低但容易卡住，SPIKE 通过事件触发的双控制器机制在两者之间动态切换。

SPIKE 把推理本身看作一种需要调度的预算资源，而不是将长程游戏智能体的提升简单归结为“调用更强模型”或“增加更多记忆”。对于开放世界游戏、复杂软件操作和多步骤具身任务来说，学会在关键转折点重新思考、在稳定阶段低成本执行，可能是提升智能体实用性的关键路径。

SPIKE 如何把推理花在刀刃上

SPIKE 将智能体拆成两个控制器：Strategic Controller 负责低频的全局规划、失败分析和恢复；Reactive Controller 负责高频、低成本的局部执行。两者之间由 Event Trigger 协调。当系统检测到视觉突变、进展停滞、动作重复或执行失败时，才升级到 Strategic Controller 重新规划；否则就让 Reactive Controller 继续快速执行。

同时，SPIKE 使用 Hierarchical Memory 区分不同类型的记忆：State-Action Memory Bank 用于局部动作复用，State-Action Knowledge Graph 用于结构化规划证据，避免把所有历史经验混成一个嘈杂的检索池。

图 2 | 系统由环境信息捕获、Event Trigger、Strategic Controller、Reactive Controller 和 Hierarchical Memory 组成，在执行、触发、规划和记忆更新之间形成闭环。

1.SPIKE：让智能体学会“该想时想，该做时做”

在执行过程中，SPIKE 会先从游戏画面、UI 信息、任务进度和执行反馈中获取当前状态，再由 Event Trigger 判断是否出现关键事件。如果环境仍然稳定，系统不会反复调用昂贵的战略推理，而是让 Reactive Controller 基于短程计划和局部记忆继续执行。

一旦智能体出现卡住、失败、动作重复或明显场景变化，SPIKE 才会切换到 Strategic Controller。此时系统会重新收集状态信息，分析失败原因，并生成新的短程计划。动作执行结束后，成功经验、恢复行为和有效规划证据会被写回层次化记忆，为后续任务提供可复用的依据。

这种设计的关键在于：SPIKE 把推理当成一种预算资源，只在最值得花的时候花。

2.Event Trigger：什么时候该重新思考？

在长程任务中，并不是每一步都值得调用昂贵的战略推理。SPIKE 的 Event Trigger 会持续监控几类信号：执行反馈是否显示失败；距离上次战略规划是否已经过久。当这些信号表明当前计划可能失效时，系统才会升级到 Strategic Controller。否则，Reactive Controller 会继续利用已有计划完成局部动作。

这让 SPIKE 避免了两种极端：既不会像 always-strategic agent 那样每一步都重新规划，也不会像纯 reactive agent 那样在错误路径上反复尝试。

3.Hierarchical Memory：不是记更多，而是记得更合适

长程游戏任务需要记忆，但不同控制器需要的记忆并不一样。

Reactive Controller 需要的是“当前这种局部状态下，以前什么动作有效”。因此 SPIKE 使用 State-Action Memory Bank（SA-MB）存储低延迟的局部动作经验，帮助智能体快速复用成功行为。

Strategic Controller 需要的是“当前任务为什么失败、哪些状态和动作之间存在可靠关系”。因此 SPIKE 使用 State-Action Knowledge Graph（SA-KG）存储结构化证据，用于检查计划、分析失败和重新规划。

这种分工让记忆不再只是一个越来越长的历史窗口，而是变成面向控制器角色的证据系统。

图 3 | SPIKE Workflow

研究成果

1.StarDojo实验：更高成功率，更低成本

团队在 StarDojo Lite-100 上评估 SPIKE。Lite-100 包含 100 个开放世界游戏任务，覆盖 farming、crafting、exploration、combat 和 social interaction 五类任务。

SPIKE 的 Budgeted SR 达到 21.6%，高于最强 budgeted baseline StarDojo 的 12.3%，提升 9.3 个百分点。

同时，SPIKE 并不是靠花更多计算换来提升。相比 CRADLE，SPIKE 将 token 消耗从 372.5k / task 降到 168.1k / task，降低 54.9%；延迟从 73.5s / step 降到 43.5s / step，降低 40.8%。

恢复能力上，SPIKE 的 Recovery/Stuck Ratio 达到 2.75，也优于所有主要 baseline。

图 4 | StarDojo Lite-100 主结果。SPIKE 在成功率、预算内成功率、token 消耗、延迟和恢复能力之间取得更好的 trade-off。

这说明 SPIKE 的收益并不是来自某一类任务的偶然优势，而是来自更通用的控制机制：在稳定阶段低成本执行，在关键阶段重新规划，在失败后利用结构化记忆恢复。

当然，combat 和 social 仍然是最困难的任务类别。前者涉及动态敌人和复杂空间导航，后者往往需要更长距离的路线规划和交互顺序管理。这也说明，当前长程游戏智能体还远没有“解决”开放世界任务。

图 5 | Lite-100 任务类别结果。SPIKE 在五类任务上均取得最高平均成功率，但 combat 和 social 仍然是主要挑战。

2.消融实验：收益来自哪里？

消融实验进一步说明，SPIKE 的提升不是简单来自“多加了一个控制器”。

如果只使用 Strategic Controller，智能体虽然具备较强规划能力，但成本明显偏高；如果只使用 Reactive Controller，成本更低，但成功率和恢复能力不足。

完整 SPIKE 的优势来自三部分协同：

Event Trigger 决定什么时候值得升级到战略推理；Reactive Override 允许局部执行时进行有限纠错；

Hierarchical Memory 为不同控制器提供不同证据。

移除 Event Trigger 或 Reactive Override 后，Lite-100 SR 都会从 18.0% 降到 15.7%。将 Hierarchical Memory 替换为普通 Global Memory 后，SR 会降到 12.3%。移除 SA-MB 或 SA-KG 也会削弱成功率和恢复能力。

这说明 SPIKE 的关键不是“多记一点”或“多想一点”，而是把推理、执行和记忆分配到合适的位置。

图 6 | SPIKE 消融实验。Event Trigger、Reactive Override、SA-MB 和 SA-KG 分别贡献了触发时机、局部纠错、动作复用和结构化规划证据。

3.定性案例：从卡住到恢复

在定性案例中，ReAct-like 控制器容易持续输出低成本但无效的动作，因为它缺少足够强的机制来判断“当前计划已经失效”。

Always-strategic 控制器能够重新理解场景并恢复，但它会在恢复之后仍然不断调用昂贵推理，导致成本过高。 SPIKE 的行为更接近一种“快慢结合”的执行模式：当计划稳定时，它让 Reactive Controller 执行低成本动作；当画面变化或进度停滞时，它通过 Event Trigger 重新调用 Strategic Controller；当恢复完成后，再回到低成本局部执行。

图 7 | 定性对比。SPIKE 在关键失败点触发重新规划，并在计划稳定后回到低成本局部执行。

展望

SPIKE 展示了长程游戏智能体中的一个重要方向：智能体不应该只追求更强的单步推理，而应该学会分配推理预算。

当前 SPIKE 仍然有局限。Lite-100 的绝对成功率仍然不高，说明开放世界长程控制依然困难；Event Trigger 的阈值也需要根据不同游戏环境的视觉动态、动作节奏和反馈密度进行校准；在 combat 和 social 等复杂任务中，智能体仍然容易受到移动目标、长距离路线和多阶段交互的影响。

未来，更灵活的事件检测、更强的局部控制器、更可靠的跨任务记忆结构，可能进一步提升长程智能体在开放世界中的稳定性和泛化能力。

一句话总结：SPIKE 让长程游戏智能体学会“该行动时行动，该思考时思考”。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

长程游戏Agent新思路！浙大团队：把昂贵推理用在“刀刃”上

SPIKE 如何把推理花在刀刃上

研究成果

展望

评论列表

评论