GUI Action Narrator: Where and When Did That Action Take Place?

2024年06月19日
  • 简介
    多模态LLMs的出现显著提高了图像OCR识别能力,使得GUI自动化成为提高数字任务效率的可行现实。开发GUI自动化系统的一个基本方面是理解原始GUI操作。这种理解至关重要,因为它使代理能够从用户演示中学习,这是自动化的一个重要元素。为了严格评估这种能力,我们开发了一个GUI操作视频字幕基准,包括4,189个不同的视频字幕样本。与自然场景视频字幕相比,这个任务面临着独特的挑战:1)GUI截图通常包含比自然场景更密集的信息,2)GUI中的事件更加微妙且发生更快,需要精确关注适当的时间跨度和空间区域以进行准确理解。为了解决这些挑战,我们介绍了我们的GUI操作数据集 \textbf{Act2Cap},以及一个简单而有效的框架 \textbf{GUI Narrator},用于GUI视频字幕,利用光标作为视觉提示来增强高分辨率截图的解释。具体而言,我们在我们的数据集上训练了一个光标检测器,以及一个多模态LLM模型,具有选择关键帧和关键区域的机制来生成字幕。实验结果表明,即使对于最先进的多模态模型,如GPT-4o,这个任务仍然非常具有挑战性。此外,我们的评估表明,我们的策略有效地增强了模型的性能,无论是将其集成到开源模型的微调中,还是将其作为封闭源模型的提示策略。
  • 图表
  • 解决问题
    研究如何开发GUI自动化系统,需要理解原始GUI操作,以便代理程序从用户演示中学习。本文提出了一个GUI动作视频字幕基准测试,旨在解决GUI动作视频字幕生成的挑战,包括GUI截图通常比自然场景更密集,GUI中的事件更微妙且发生更快,需要精确关注适当的时间跨度和空间区域。
  • 关键思路
    提出了一个简单而有效的框架GUI Narrator,利用光标作为视觉提示来增强对高分辨率截图的解释,其中包括训练光标检测器和使用多模态LLM模型生成字幕。实验结果表明,即使对于最先进的多模态模型,如GPT-4o,该任务仍然非常具有挑战性。
  • 其它亮点
    本文提出了一个GUI动作数据集Act2Cap,用于评估GUI动作视频字幕生成的性能;提出了一个简单而有效的框架GUI Narrator,用于生成GUI动作视频字幕;实验结果表明该任务非常具有挑战性,但该框架可以有效地提高模型的性能。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《Deep Reinforcement Learning for GUI Testing》、《A Survey of GUI Testing: Approaches, Tools, and Challenges》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论