GUIDE: Graphical User Interface Data for Execution

2024年04月09日
  • 简介
    本文介绍了GUIDE,这是一个专为多模态大型语言模型(MLLM)应用而设计的新型数据集,特别关注机器人流程自动化(RPA)用例。我们的数据集包含来自不同网站的多样化数据,包括Apollo(62.67%),Gmail(3.43%),Calendar(10.98%)和Canva(22.92%)。每个数据条目都包括一个图像、一个任务描述、上次执行的动作、CoT以及下一个要执行的动作,以及动作需要执行的位置的基础信息。这些数据是使用我们的内部先进注释工具NEXTAG(Next Action Grounding and Annotation Tool)收集的。该数据适用于多个操作系统、浏览器和显示类型。它由多个注释员收集,以捕捉设计的变化和人们使用网站的方式。 通过这个数据集,我们旨在促进图形用户界面领域的LLM研究和开发,特别是与RPA相关的任务。数据集的多平台性和对不同网站的覆盖,使得能够探索自动化任务中的跨界面能力。我们相信,我们的数据集将成为在实际应用中推进多平台LLM能力的宝贵资源,促进自动化和自然语言理解领域的创新。使用GUIDE,我们构建了V-Zen,这是第一个使用我们的内部自动化工具AUTONODE自动化多个网站的RPA模型。
  • 作者讲解
  • 图表
  • 解决问题
    介绍了一个新的数据集GUIDE,旨在促进多模态大语言模型在机器人流程自动化中的应用。
  • 关键思路
    GUIDE数据集包含来自多个网站的多样化数据,通过使用自家的高级注释工具NEXTAG进行收集和标注,旨在提高图形用户界面相关任务中多平台LLM的能力。
  • 其它亮点
    数据集涵盖多个网站,支持多种操作系统、浏览器和显示类型,构建了V-Zen模型来自动化多个网站,使用了自家的AUTONODE自动化工具。
  • 相关研究
    最近的相关研究主要集中在多模态大语言模型的应用上,如GPT-3等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问