Tree Search for Language Model Agents

简介

由语言模型（LM）驱动的自主代理已经展示了其在执行决策任务（如Web自动化）方面的潜力。然而，一个关键的限制仍然存在：LM主要针对自然语言理解和生成进行优化，当试图解决现实计算机任务时，它们在多步推理、规划和使用环境反馈方面存在困难。为了解决这个问题，我们提出了一种推理时间搜索算法，用于LM代理在交互式Web环境中明确执行探索和多步规划。我们的方法是一种最佳优先树搜索的形式，它在实际环境空间内运行，并且与大多数现有的最先进的代理相辅相成。这是LM代理的第一个树搜索算法，它在现实的Web任务上显示出了有效性。在具有挑战性的VisualWebArena基准测试中，将我们的搜索算法应用于GPT-4o代理之上，相对于没有搜索的相同基线，成功率提高了39.7%，达到了26.4%的最新成功率。在WebArena上，搜索还使基线代理的成功率提高了28.0%，达到了19.2%的有竞争力的成功率。我们的实验突出了搜索对于Web代理的有效性，并且我们展示了性能随着测试时间计算的增加而扩展。我们对结果进行了彻底的分析，以突出搜索的改进、限制和未来工作的有希望的方向。我们的代码和模型已经公开发布在https://jykoh.com/search-agents。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

提高语言模型代理在交互式网络环境中的决策能力，特别是在多步推理、计划和使用环境反馈方面的能力。
关键思路

提出了一种基于最佳优先搜索的算法，以在实际环境空间中执行探索和多步规划，从而提高语言模型代理的性能。这是第一个针对语言模型代理的树搜索算法，展示了在实际网络任务中的有效性。
其它亮点

在具有挑战性的VisualWebArena基准测试中，将搜索算法应用于GPT-4o代理上，相对于没有搜索的基线，成功率提高了39.7％，成功率为26.4％，创造了最新的成功率记录。在WebArena上，搜索也相对于基线代理提高了28.0％，成功率达到19.2％。实验表明，搜索对于网络代理的有效性，并且性能随着测试时间计算的增加而提高。
相关研究

最近的相关研究包括基于强化学习的网络代理和基于树搜索的传统代理。

Tree Search for Language Model Agents

提问交流

提问交流