Benchmarking Mobile Device Control Agents across Diverse Configurations

2024年04月25日
  • 简介
    开发用于移动设备的自主代理程序可以显著提高用户交互的效率和可访问性。然而,尽管对于移动设备控制代理程序的兴趣日益增长,但缺乏一个公认的基准使得在这个领域量化科学进展变得具有挑战性。在这项工作中,我们介绍了一个新的基准:B-MoCA,它是专门为评估移动设备控制代理程序而设计的。为了创建一个真实的基准,我们基于Android操作系统开发了B-MoCA,并定义了60个常见的日常任务。重要的是,我们加入了一个随机化功能,可以改变移动设备的各个方面,包括用户界面布局和语言设置,以评估泛化性能。我们对不同的代理程序进行基准测试,包括使用大型语言模型(LLM)或多模式LLM的代理程序,以及使用人类专家演示进行从头训练的代理程序。虽然这些代理程序表现出执行简单任务的熟练程度,但它们在复杂任务上的表现不佳,突显了未来研究提高它们有效性的重大机遇。我们的源代码公开可用于https://b-moca.github.io。
  • 图表
  • 解决问题
    论文旨在解决移动设备控制代理的评估问题,设计了一个新的基于Android操作系统的基准测试B-MoCA,并探讨了现有代理的性能和局限性。
  • 关键思路
    B-MoCA基准测试包括60个常见的日常任务,并引入了随机化功能来评估代理的泛化性能。通过评估使用大型语言模型(LLMs)或多模式LLMs的代理以及使用人类专家演示进行训练的代理,论文发现现有代理在执行复杂任务方面表现不佳,需要进一步改进。
  • 其它亮点
    论文的亮点包括:设计了一个新的移动设备控制代理基准测试B-MoCA;评估了使用不同方法训练的代理的性能和局限性;通过引入随机化功能来评估代理的泛化性能;公开了源代码。
  • 相关研究
    最近的相关研究包括:《Mobile Agents: Are They a Good Idea?》、《A Survey of Mobile Agents for Distributed Information Retrieval》、《Mobile Agent-Based Distributed Data Mining: A Survey》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论