On the Effects of Data Scale on Computer Control Agents

2024年06月06日
  • 简介
    自主代理程序正在出现,用于控制计算机界面以完成人类任务。利用LLMs来驱动这些代理程序已经引起了特别关注,但除非对人类收集的任务演示进行了精细调整,否则性能仍然相对较低。在这项工作中,我们研究了仅通过精细调整来构建现实世界计算机控制代理程序是否是可行的方法。具体而言,我们研究了在收集更多训练数据的情况下,对领域内和领域外的高低级任务进行的性能测量。为此,我们收集并发布了一个新数据集AndroidControl,其中包含15,283个使用Android应用程序完成日常任务的演示。与现有数据集相比,每个AndroidControl任务实例都包括高低级人工生成的指令,使我们能够探索代理程序可以处理的任务复杂度水平。此外,AndroidControl是迄今为止最多样化的计算机控制数据集,包括833个Android应用程序上的15,283个独特任务,因此允许我们深入分析模型在训练数据领域内外的性能。使用该数据集,我们发现在领域内测试时,经过精细调整的模型优于零和少量样本基线,并且随着收集更多数据,可以实现强大的性能扩展。领域外,性能扩展速度显著较慢,并且表明特别是对于高级任务,仅通过收集更多数据进行精细调整可能不足以实现强大的领域外性能。
  • 图表
  • 解决问题
    本论文旨在研究fine-tuning在构建真实世界计算机控制代理中的可行性,特别是在收集更多训练数据时,性能如何在域内和域外的高低级任务上进行衡量。
  • 关键思路
    论文使用新数据集AndroidControl,研究fine-tuning在构建计算机控制代理中的可行性。研究发现,当在域内测试时,fine-tuned模型优于零和少量样本基线,并且随着收集更多数据,性能可以得到可靠的提升。但是在域外,性能提升缓慢,尤其是对于高级任务,仅靠收集更多数据进行fine-tuning可能不足以实现可靠的域外性能。
  • 其它亮点
    数据集AndroidControl是迄今为止最多样化的计算机控制数据集,包括15,283个独特的任务,涵盖了833个Android应用程序。研究使用的方法可以为构建计算机控制代理提供指导。
  • 相关研究
    相关研究包括使用LLMs来驱动自主代理的工作,以及使用收集的任务演示进行fine-tuning的工作。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论