UFO: A UI-Focused Agent for Windows OS Interaction

2024年02月08日
  • 简介
    我们介绍了UFO,这是一个创新的UI-Focused代理,旨在满足Windows操作系统上应用程序的用户请求,利用GPT-Vision的能力。UFO采用双代理框架,精心观察和分析Windows应用程序的图形用户界面(GUI)和控制信息。这使代理能够无缝地在各个应用程序中导航和操作,以满足用户的请求,即使跨越多个应用程序。该框架包括一个控制交互模块,促进行动基础的无人干预,实现完全自动化执行。因此,UFO将繁琐和耗时的过程转化为简单的任务,仅通过自然语言命令即可完成。我们在9个流行的Windows应用程序上测试了UFO,涵盖了反映用户日常使用情况的各种场景。从定量指标和实际案例研究得出的结果强调了UFO在满足用户请求方面的卓越效果。据我们所知,UFO是专门针对Windows操作系统环境中的任务完成而定制的第一个UI代理。UFO的开源代码可在https://github.com/microsoft/UFO上获得。
  • 图表
  • 解决问题
    UFO试图解决Windows OS环境下用户任务完成的繁琐和耗时问题。
  • 关键思路
    UFO采用双代理框架,结合GPT-Vision技术,通过观察和分析Windows应用程序的图形用户界面和控制信息,实现无需人工干预的自动化执行。
  • 其它亮点
    论文测试了UFO在9个流行的Windows应用程序中的效果,结果表明UFO在完成用户任务方面具有卓越的效率。UFO是首个专门针对Windows OS环境中任务完成的UI代理。UFO的开源代码可在https://github.com/microsoft/UFO上获得。
  • 相关研究
    该论文没有明确提到相关研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论