Agent S: An Open Agentic Framework that Uses Computers Like a Human

2024年10月10日
  • 简介
    我们介绍了Agent S,这是一个开放的代理框架,通过图形用户界面(GUI)实现与计算机的自主交互,旨在通过自动化复杂的多步骤任务来改变人机交互。Agent S旨在解决自动化计算机任务的三个关键挑战:获取特定领域的知识,规划长期任务,以及处理动态的、非统一的界面。为此,Agent S引入了经验增强的分层规划,它从外部知识搜索和内部经验检索中学习多层次的知识,从而促进了任务规划和子任务执行的高效性。此外,它采用了基于多模式大语言模型(MLLMs)的代理计算机界面(ACI),以更好地引出GUI代理的推理和控制能力。在OSWorld基准测试中的评估表明,Agent S在成功率上比基准测试高出9.37%(相对改进83.6%),并实现了新的最先进技术。全面的分析突出了各个组件的有效性,并为未来的改进提供了见解。此外,Agent S在新发布的WindowsAgentArena基准测试中展示了广泛的普适性。代码可在https://github.com/simular-ai/Agent-S上获得。
  • 图表
  • 解决问题
    Agent S试图解决自动化计算机任务的三个关键挑战:获取特定领域的知识、计划长期任务和处理动态、不均匀的界面。这是否是一个新问题?
  • 关键思路
    Agent S引入了经验增强的分层规划,通过在多个层次上学习外部知识搜索和内部经验检索,实现了高效的任务规划和子任务执行。此外,它还使用基于多模式大型语言模型的代理-计算机接口(ACI),以更好地引出GUI代理的推理和控制能力。
  • 其它亮点
    Agent S在OSWorld基准测试中的成功率比基线提高了9.37%(相对提高了83.6%),达到了新的最先进水平。它还在新发布的WindowsAgentArena基准测试中展示了广泛的通用性。研究对各个组件的有效性进行了全面分析,并提供了未来改进的见解。代码可在https://github.com/simular-ai/Agent-S上获得。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:1. End-to-End Learning of Task Decomposition for Task-Oriented Dialogue Systems;2. Deep Reinforcement Learning for Multi-Domain Dialogue Systems;3. Learning to Learn from Weak Supervision by Full Supervision;4. Learning to Learn with Conditional Class Dependencies。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论