GUICourse: From General Vision Language Models to Versatile GUI Agents

2024年06月17日
  • 简介
    利用图形用户界面(GUI)进行人机交互对于访问各种数字工具至关重要。最近视觉语言模型(VLMs)的进展突显了开发多才多艺的代理人来帮助人类完成GUI导航任务的潜力。然而,目前的VLMs在基本能力(OCR和基础知识)和GUI知识(GUI元素的功能和控制方法)方面存在挑战,阻止它们成为实用的GUI代理人。为了解决这些挑战,我们提出了GUICourse,这是一套用于从通用VLMs训练基于视觉的GUI代理人的数据集。首先,我们介绍了GUIEnv数据集,以加强VLMs的OCR和基础知识能力。然后,我们介绍了GUIAct和GUIChat数据集,以丰富它们对GUI组件和交互的知识。实验证明,我们的GUI代理人在常见的GUI任务上比其基线VLMs表现更好。即使是小型GUI代理人(具有3.1B的参数),它仍然可以在单步和多步GUI任务上表现良好。最后,我们通过消融研究分析了该代理人训练阶段的不同变化。我们的源代码和数据集已在 https://github.com/yiye3/GUICourse 发布。
  • 图表
  • 解决问题
    论文旨在解决当前视觉语言模型在GUI界面导航中的困难,包括OCR和基础知识缺失等问题,以提高GUI代理的实用性。
  • 关键思路
    通过引入GUIEnv、GUIAct和GUIChat数据集,加强OCR和基础知识,从而训练出更好的GUI代理,实现更好的GUI任务表现。
  • 其它亮点
    论文提供了GUICourse数据集和源代码,实验结果表明,使用这些数据集训练的GUI代理在常见GUI任务上表现更好。研究还进行了消融实验,分析了不同训练阶段的影响。值得进一步研究。
  • 相关研究
    最近的相关研究包括:End-to-End Learning of Task-Oriented Dialog from Augmented User Simulations、Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论