- 简介自主代理程序的发展越来越依赖于多模式语言模型(MLMs),以在具有GUI环境的任务中执行自然语言描述的任务,例如网站、桌面计算机或移动电话。现有的交互环境中MLM代理的基准测试受到限制,因为它们专注于单个环境,缺乏详细和广义的评估方法,并且构建任务和评估器的复杂性。为了克服这些限制,我们介绍了Crab,这是第一个代理基准测试框架,旨在支持跨环境任务,包括基于图形的细粒度评估方法和一种有效的任务和评估器构建机制。我们的框架支持多个设备,并且可以轻松扩展到具有Python接口的任何环境。利用Crab,我们开发了一个跨平台的Crab Benchmark-v0,其中包括100个计算机桌面和移动电话环境中的任务。我们在此基准测试中使用了四个先进的MLM,使用不同的单个和多个代理系统配置进行了评估。实验结果表明,使用GPT-4o的单个代理程序实现了最佳的完成比例(35.26%)。所有框架代码、代理代码和任务数据集都可以在https://github.com/camel-ai/crab上公开获得。
- 图表
- 解决问题该论文旨在解决多模态语言模型在交互式环境中的任务表现评估问题,提出了一个跨环境任务评估框架Crab,并在计算机桌面和移动设备环境中构建了一个跨平台的Crab Benchmark-v0测试集。
- 关键思路该论文的关键思路是使用Crab框架支持跨环境任务,并使用基于图形的细粒度评估方法和高效的任务和评估器构建机制来评估多模态语言模型的性能。
- 其它亮点该论文提出了Crab框架,支持跨环境任务评估,并构建了一个跨平台的测试集。实验结果表明,单个代理与GPT-4o的组合可以实现最佳完成率35.26%。该论文的所有代码和数据集都是公开的。
- 在该领域的相关研究包括基于多模态语言模型的自主代理开发,以及基于任务的评估方法。
沙发等你来抢
去评论
评论
沙发等你来抢