由语言模型(LM)驱动的自主代理已经展示了其在执行决策任务(如Web自动化)方面的潜力。然而,一个关键的限制仍然存在:LM主要针对自然语言理解和生成进行优化,当试图解决现实计算机任务时,它们在多步推理、规划和使用环境反馈方面存在困难。为了解决这个问题,我们提出了一种推理时间搜索算法,用于LM代理在交互式Web环境中明确执行探索和多步规划。我们的方法是一种最佳优先树搜索的形式,它在实际环境空间内运行,并且与大多数现有的最先进的代理相辅相成。这是LM代理的第一个树搜索算法,它在现实的Web任务上显示出了有效性。在具有挑战性的VisualWebArena基准测试中,将我们的搜索算法应用于GPT-4o代理之上,相对于没有搜索的相同基线,成功率提高了39.7%,达到了26.4%的最新成功率。在WebArena上,搜索还使基线代理的成功率提高了28.0%,达到了19.2%的有竞争力的成功率。我们的实验突出了搜索对于Web代理的有效性,并且我们展示了性能随着测试时间计算的增加而扩展。我们对结果进行了彻底的分析,以突出搜索的改进、限制和未来工作的有希望的方向。我们的代码和模型已经公开发布在https://jykoh.com/search-agents。
提问交流