- 简介本文介绍了GUIDE,这是一个专为多模态大型语言模型(MLLM)应用而设计的新型数据集,特别关注机器人流程自动化(RPA)用例。我们的数据集包含来自不同网站的多样化数据,包括Apollo(62.67%),Gmail(3.43%),Calendar(10.98%)和Canva(22.92%)。每个数据条目都包括一个图像、一个任务描述、上次执行的动作、CoT以及下一个要执行的动作,以及动作需要执行的位置的基础信息。这些数据是使用我们的内部先进注释工具NEXTAG(Next Action Grounding and Annotation Tool)收集的。该数据适用于多个操作系统、浏览器和显示类型。它由多个注释员收集,以捕捉设计的变化和人们使用网站的方式。 通过这个数据集,我们旨在促进图形用户界面领域的LLM研究和开发,特别是与RPA相关的任务。数据集的多平台性和对不同网站的覆盖,使得能够探索自动化任务中的跨界面能力。我们相信,我们的数据集将成为在实际应用中推进多平台LLM能力的宝贵资源,促进自动化和自然语言理解领域的创新。使用GUIDE,我们构建了V-Zen,这是第一个使用我们的内部自动化工具AUTONODE自动化多个网站的RPA模型。
-
- 图表
- 解决问题介绍了一个新的数据集GUIDE,旨在促进多模态大语言模型在机器人流程自动化中的应用。
- 关键思路GUIDE数据集包含来自多个网站的多样化数据,通过使用自家的高级注释工具NEXTAG进行收集和标注,旨在提高图形用户界面相关任务中多平台LLM的能力。
- 其它亮点数据集涵盖多个网站,支持多种操作系统、浏览器和显示类型,构建了V-Zen模型来自动化多个网站,使用了自家的AUTONODE自动化工具。
- 最近的相关研究主要集中在多模态大语言模型的应用上,如GPT-3等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流