GUIDE: Graphical User Interface Data for Execution

简介

本文介绍了GUIDE，这是一个专为多模态大型语言模型（MLLM）应用而设计的新型数据集，特别关注机器人流程自动化（RPA）用例。我们的数据集包含来自不同网站的多样化数据，包括Apollo（62.67％），Gmail（3.43％），Calendar（10.98％）和Canva（22.92％）。每个数据条目都包括一个图像、一个任务描述、上次执行的动作、CoT以及下一个要执行的动作，以及动作需要执行的位置的基础信息。这些数据是使用我们的内部先进注释工具NEXTAG（Next Action Grounding and Annotation Tool）收集的。该数据适用于多个操作系统、浏览器和显示类型。它由多个注释员收集，以捕捉设计的变化和人们使用网站的方式。通过这个数据集，我们旨在促进图形用户界面领域的LLM研究和开发，特别是与RPA相关的任务。数据集的多平台性和对不同网站的覆盖，使得能够探索自动化任务中的跨界面能力。我们相信，我们的数据集将成为在实际应用中推进多平台LLM能力的宝贵资源，促进自动化和自然语言理解领域的创新。使用GUIDE，我们构建了V-Zen，这是第一个使用我们的内部自动化工具AUTONODE自动化多个网站的RPA模型。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

介绍了一个新的数据集GUIDE，旨在促进多模态大语言模型在机器人流程自动化中的应用。

关键思路

GUIDE数据集包含来自多个网站的多样化数据，通过使用自家的高级注释工具NEXTAG进行收集和标注，旨在提高图形用户界面相关任务中多平台LLM的能力。

其它亮点

数据集涵盖多个网站，支持多种操作系统、浏览器和显示类型，构建了V-Zen模型来自动化多个网站，使用了自家的AUTONODE自动化工具。

GUIDE: Graphical User Interface Data for Execution

提问交流

提问交流