VideoGUI: A Benchmark for GUI Automation from Instructional Videos

2024年06月14日
  • 简介
    本文介绍了一种名为VideoGUI的新型多模态基准,旨在评估GUI助手在以视觉为中心的GUI任务上的表现。该基准主要关注涉及专业和新颖软件(如Adobe Photoshop或Stable Diffusion WebUI)和复杂活动(如视频编辑)的任务,通过分层过程评估GUI助手,从而允许识别它们可能失败的具体级别:(i)高层规划:在没有语言描述的情况下从视觉条件重建过程子任务;(ii)中层规划:基于视觉状态(即屏幕截图)和目标生成精确动作序列;(iii)原子动作执行:执行特定的动作,如准确地单击指定元素。对于每个级别,我们设计了跨个体维度的评估指标,以提供清晰的信号,例如原子动作执行中单击、拖动、输入和滚动的个体表现。我们在VideoGUI上的评估揭示了即使是SoTA大型多模态模型GPT4o在以视觉为中心的GUI任务上表现也很差,特别是在高层规划方面。
  • 图表
  • 解决问题
    介绍VideoGUI,一个用于评估GUI助手在视觉为中心的GUI任务上表现的多模态基准测试,旨在解决GUI自动化中的语言描述限制问题。
  • 关键思路
    通过从高质量的网络教学视频中获取数据,VideoGUI通过分层过程评估GUI助手,包括高级规划、中级规划和原子行动执行,为每个层次设计了评估指标。
  • 其它亮点
    论文聚焦于专业和新颖软件以及复杂活动的任务。实验结果显示,即使是SoTA大型多模态模型GPT4o在视觉为中心的GUI任务上表现也较差,特别是在高级规划方面。
  • 相关研究
    最近的相关研究包括:1. VisualTask: A New Video Benchmark for Natural Language to Task; 2. Learning to Generate Pseudo-code from Source Code Using Graph-to-Sequence Models; 3. A Survey of Deep Learning for Scientific Discovery
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论