GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents

2024年06月16日
  • 简介
    最近,多模态大型语言模型(MLLM)被用作代理来直接感知图形用户界面(GUI)并生成相应的代码来控制键盘和鼠标输入。然而,当前的代理主要在静态环境下表现出极佳的理解能力,并且主要应用于相对简单的领域,例如Web或移动界面。我们认为,一个强大的GUI代理应该能够感知GUI上的时间信息,包括动态Web内容和多步骤任务。此外,它应该具备对各种GUI场景的全面理解,包括桌面软件和多窗口交互。为此,本文介绍了一个名为GUI-World的新数据集,其中包含精心制作的人类-MLLM注释,广泛涵盖了六种GUI场景和三种格式的八种GUI导向问题。我们评估了当前最先进的MLLM的能力,包括ImageLLM和VideoLLM,以理解各种类型的GUI内容,特别是动态和序列内容。我们的研究结果表明,ImageLLM在没有手动注释的关键帧或操作历史的情况下难以处理动态GUI内容。另一方面,由于GUI视频数据集稀缺,VideoLLM在所有GUI导向任务中表现不佳。基于GUI-World,我们采取了使用经过微调的VideoLLM作为GUI代理的初始步骤,展示了对各种GUI任务的改进理解。然而,由于基础LLM性能的限制,我们得出结论,使用VideoLLM作为GUI代理仍然是一个重大挑战。我们相信我们的工作为未来的动态GUI内容理解研究提供了有价值的见解。代码和数据集可在我们的项目主页上公开获取:https://gui-world.github.io/。
  • 图表
  • 解决问题
    研究如何让机器人能够感知动态的GUI内容并理解各种GUI场景,包括桌面软件和多窗口交互等,以及如何解决当前基于MLLMs的GUI代理在这些任务上的局限性。
  • 关键思路
    通过引入一个新的数据集GUI-World,其中包含六个GUI场景和八种GUI相关问题的三种格式的人-MLLM注释,对当前最先进的MLLMs进行评估,发现ImageLLMs在没有手动注释关键帧或操作历史的情况下难以处理动态GUI内容,而VideoLLMs由于GUI视频数据稀缺,在所有GUI相关任务上表现不佳。然后,将经过微调的VideoLLM用作GUI代理,取得了改善的结果。
  • 其它亮点
    提出了一个新的数据集GUI-World,用于评估当前最先进的MLLMs在理解各种GUI任务方面的能力;发现ImageLLMs和VideoLLMs在处理动态GUI内容和GUI相关任务方面存在局限性;通过微调VideoLLM作为GUI代理,取得了改善的结果。
  • 相关研究
    最近的相关研究包括:1)使用MLLMs控制GUI输入的研究;2)使用图像和视频LLMs进行计算机视觉和视频理解的研究;3)使用视觉和语言信息进行多模态学习的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论