- 简介近年来,移动设备上的在线图形用户界面(GUI)导航引起了很多关注,因为它对许多现实世界的应用有贡献。随着大语言模型(LLM)的快速发展,多模态大语言模型(MLLM)在这项任务上有着巨大的潜力。然而,现有的MLLM需要高质量的数据来提高其根据人类用户输入做出正确导航决策的能力。在本文中,我们开发了一种新颖且非常有价值的数据集,名为E-ANT,作为第一个包含真实人类行为和高质量屏幕截图注释的中文GUI导航数据集,其中包含近40,000个不同的小程序上的人类行为轨迹。此外,我们在E-ANT上评估了各种强大的MLLM,并展示了它们的实验结果和充分的剖析。我们相信,我们提出的数据集将有利于GUI导航和LLM/MLLM决策能力的评估和发展。
- 图表
- 解决问题解决问题:论文提出了一个新的中文GUI导航数据集E-ANT,并在该数据集上评估了各种强大的MLLM模型的性能,以提高其正确导航决策的能力。
- 关键思路关键思路:利用E-ANT数据集,评估了各种MLLM模型的性能,包括BERT、GPT-2和UniLM等,并提出了一种新的基于多模态交互的导航模型。
- 其它亮点其他亮点:该论文提出的E-ANT数据集是第一个包含真实人类行为和高质量截图注释的中文GUI导航数据集,包含近40,000个真实人类轨迹和5000多个不同的微型应用程序。实验结果表明,新提出的多模态交互导航模型在E-ANT数据集上的性能优于其他模型。该论文还提供了开源代码和数据集。
- 相关研究:最近在这个领域中,还有一些相关的研究,如基于视觉和语义特征的GUI导航、基于强化学习的GUI导航等。
沙发等你来抢
去评论
评论
沙发等你来抢