ScreenAgent: A Vision Language Model-driven Computer Control Agent

2024年02月09日
  • 简介
    现有的大型语言模型可以调用各种工具和API来完成复杂的任务。作为最强大和通用的工具,计算机可能被训练有素的LLM代理直接控制。在计算机的支持下,我们可以希望构建一个更广义的代理来协助人类完成各种日常数字工作。在本文中,我们构建了一个环境,让视觉语言模型(VLM)代理与真实的计算机屏幕进行交互。在这个环境中,代理可以观察屏幕截图,并通过输出鼠标和键盘动作来操作图形用户界面(GUI)。我们还设计了一个自动化控制流程,包括规划、执行和反思阶段,指导代理不断地与环境交互并完成多步任务。此外,我们构建了ScreenAgent数据集,收集了在完成各种日常计算机任务时的屏幕截图和动作序列。最后,我们训练了一个名为ScreenAgent的模型,它实现了与GPT-4V相当的计算机控制能力,并展示了更精确的UI定位能力。我们的尝试可以激发进一步研究构建通用的LLM代理。代码可在\url{https://github.com/niuzaisheng/ScreenAgent}获得。
  • 图表
  • 解决问题
    构建一个通用的 LLN 代理来协助人们完成各种日常数字工作,该代理可以直接控制计算机屏幕。
  • 关键思路
    构建一个 Vision Language Model (VLM) 代理与真实计算机屏幕进行交互,通过输出鼠标和键盘操作来操作 GUI。设计自动化控制流程,包括计划、执行和反思阶段,以指导代理不断与环境交互并完成多步任务。
  • 其它亮点
    构建了 ScreenAgent 数据集,收集了完成各种日常计算机任务时的截屏和动作序列。训练了 ScreenAgent 模型,实现了可与 GPT-4V 相媲美的计算机控制能力,并展示了更精确的 UI 定位能力。开源代码可在 https://github.com/niuzaisheng/ScreenAgent 找到。
  • 相关研究
    近期的相关研究包括:《Large-Scale Study of Curiosity-Driven Learning》、《Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference》、《Meta-Learning with Implicit Gradients》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论