- 简介Robotic Process Automation(RPA)系统面临着处理复杂流程和多样屏幕布局的挑战,这需要先进的类人决策能力。这些系统通常依赖于像素级编码,通过拖放或自动化框架(如Selenium)创建导航工作流程,而不是对屏幕元素的视觉理解。在这种情况下,我们提出了SmartFlow,这是一个基于人工智能的RPA系统,它使用预训练的大型语言模型(LLMs)结合基于深度学习的图像理解。我们的系统可以适应新的情况,包括用户界面的变化和输入数据的变化,无需人工干预。SmartFlow使用计算机视觉和自然语言处理来感知图形用户界面(GUI)上的可见元素,并将它们转换为文本表示。然后,LLMs利用这些信息生成一系列动作,由脚本引擎执行以完成分配的任务。为了评估SmartFlow的有效性,我们开发了一个包括一组通用企业应用程序的数据集,这些应用程序具有不同的布局,并发布供研究使用。我们对这个数据集的评估表明,SmartFlow在不同的布局和应用程序上表现出鲁棒性。SmartFlow可以自动化广泛的业务流程,例如表单填写、客户服务、发票处理和后勤运营。因此,SmartFlow可以帮助组织通过自动化更大比例的基于屏幕的工作流程来提高生产力。演示视频和数据集可在https://smartflow-4c5a0a.webflow.io/上获得。
-
- 图表
- 解决问题SmartFlow试图解决RPA系统在处理复杂流程和多样化屏幕布局时的挑战,需要更高级的类人决策能力。
- 关键思路SmartFlow使用预训练的大型语言模型和基于深度学习的图像理解相结合的方法,可以适应新场景,无需人工干预。
- 其它亮点SmartFlow使用计算机视觉和自然语言处理来感知图形用户界面上的可见元素并将其转换为文本表示。它可以自动化广泛的业务流程,并展现出在不同布局和应用程序上的鲁棒性。论文提供了一个数据集和演示视频。
- 最近的相关研究主要集中在RPA系统的改进和自动化方面,如基于机器学习的自动化和自适应自动化。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流