Agent Workflow Memory

2024年09月11日
  • 简介
    尽管基于语言模型的智能体在解决网页导航等现实任务方面具有潜力,但当前的方法仍然难以处理具有复杂动作轨迹的长期任务。相比之下,人类可以通过从过去的经验中学习可重复使用的任务工作流并将其用于指导未来的行动,从而灵活地解决复杂任务。为了构建能够类似受益于这一过程的智能体,我们引入了Agent Workflow Memory(AWM),一种诱导常用可重复使用的例程(即工作流)并有选择地向智能体提供工作流以指导后续生成的方法。AWM灵活适用于离线和在线场景,其中智能体可以从训练示例中预先诱导工作流,也可以在运行时从测试查询中诱导工作流。我们在两个主要的网络导航基准测试Mind2Web和WebArena上进行了实验,涵盖了旅游、购物、社交媒体等200多个领域的1000多个任务。AWM在Mind2Web和WebArena上将基线结果的相对成功率分别提高了24.6%和51.1%,同时减少了成功解决WebArena任务所需的步骤数。此外,在线AWM在跨任务、网站和领域的评估中具有稳健的泛化能力,当训练-测试任务分布差距扩大时,超过基线8.9到14.0个绝对点。
  • 图表
  • 解决问题
    本文试图解决长期任务中复杂动作轨迹的问题,通过引入Agent Workflow Memory (AWM)方法来诱导常用的可重复使用的任务流程,并选择性地提供给代理人来指导后续的操作。
  • 关键思路
    AWM方法可以灵活地应用于离线和在线场景,可以在训练之前从训练示例中诱导工作流程,也可以在测试查询时进行。
  • 其它亮点
    本文在两个主要的网络导航基准测试 - Mind2Web和WebArena上进行实验,共涵盖1000多个任务,从旅行、购物和社交媒体等200多个领域。AWM方法显著提高了基线结果,在Mind2Web和WebArena上分别提高了24.6%和51.1%的相对成功率,同时减少了成功解决WebArena任务所需的步骤数。此外,在线AWM在跨任务、网站和领域评估中具有鲁棒的泛化能力,超越了8.9至14.0绝对点的基线。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:Learning to Navigate the Web (L2W)、Learning to Explore with Meta Policy Gradient (MPG)、Learning to Navigate the Web Efficiently with Dynamic Macro-Actions (DMA)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论