- 简介在线GUI导航在移动设备上近年来引起了很多关注,因为它对许多实际应用有贡献。随着大语言模型(LLM)的快速发展,多模大语言模型(MLLM)在这个任务上有着巨大的潜力。然而,现有的MLLM需要高质量的数据来提高其根据人类用户输入做出正确导航决策的能力。在本文中,我们开发了一个新颖且非常有价值的数据集,名为\textbf{E-ANT},它是第一个包含真实人类行为和高质量截图注释的中文GUI导航数据集,包含近40,000个不同的微型应用程序上的人类轨迹。此外,我们评估了各种强大的MLLM在E-ANT上的表现,并展示了它们的实验结果和充分的消融实验。我们相信我们提出的数据集将有助于GUI导航和LLM / MLLM决策能力的评估和开发。
-
- 图表
- 解决问题本论文旨在解决GUI导航中的语言理解问题,提出了一种基于多模态大语言模型的解决方案,并开发了一个新的数据集E-ANT。
- 关键思路本论文的关键思路是使用多模态大语言模型来解决GUI导航中的语言理解问题,并使用E-ANT数据集进行实验和评估。
- 其它亮点E-ANT数据集包含了近40000个真实人类行为和高质量的屏幕截图及其注释,涵盖了5000多个不同的小程序。论文还评估了多种强大的多模态大语言模型在E-ANT数据集上的表现,并进行了足够的分析。此外,论文还提供了开源代码。
- 最近的相关研究包括基于语言模型的GUI导航方法和使用深度学习技术进行GUI导航的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流