Agent S: An Open Agentic Framework that Uses Computers Like a Human

简介

我们介绍了Agent S，这是一个开放的代理框架，通过图形用户界面（GUI）实现与计算机的自主交互，旨在通过自动化复杂的多步骤任务来改变人机交互。Agent S旨在解决自动化计算机任务的三个关键挑战：获取特定领域的知识，规划长期任务，以及处理动态的、非统一的界面。为此，Agent S引入了经验增强的分层规划，它从外部知识搜索和内部经验检索中学习多层次的知识，从而促进了任务规划和子任务执行的高效性。此外，它采用了基于多模式大语言模型（MLLMs）的代理计算机界面（ACI），以更好地引出GUI代理的推理和控制能力。在OSWorld基准测试中的评估表明，Agent S在成功率上比基准测试高出9.37%（相对改进83.6%），并实现了新的最先进技术。全面的分析突出了各个组件的有效性，并为未来的改进提供了见解。此外，Agent S在新发布的WindowsAgentArena基准测试中展示了广泛的普适性。代码可在https://github.com/simular-ai/Agent-S上获得。
图表
解决问题

Agent S试图解决自动化计算机任务的三个关键挑战：获取特定领域的知识、计划长期任务和处理动态、不均匀的界面。这是否是一个新问题？
关键思路

Agent S引入了经验增强的分层规划，通过在多个层次上学习外部知识搜索和内部经验检索，实现了高效的任务规划和子任务执行。此外，它还使用基于多模式大型语言模型的代理-计算机接口（ACI），以更好地引出GUI代理的推理和控制能力。
其它亮点

Agent S在OSWorld基准测试中的成功率比基线提高了9.37％（相对提高了83.6％），达到了新的最先进水平。它还在新发布的WindowsAgentArena基准测试中展示了广泛的通用性。研究对各个组件的有效性进行了全面分析，并提供了未来改进的见解。代码可在https://github.com/simular-ai/Agent-S上获得。
相关研究

最近在这个领域中，还有一些相关的研究，如：1. End-to-End Learning of Task Decomposition for Task-Oriented Dialogue Systems；2. Deep Reinforcement Learning for Multi-Domain Dialogue Systems；3. Learning to Learn from Weak Supervision by Full Supervision；4. Learning to Learn with Conditional Class Dependencies。

Agent S: An Open Agentic Framework that Uses Computers Like a Human

评论