- 简介智能手机用户经常需要在多个应用程序之间进行导航,以完成例如在社交媒体平台之间共享内容等任务。自主图形用户界面(GUI)导航代理可以通过简化工作流程和减少手动干预,增强用户在通信、娱乐和生产力方面的体验。然而,以往的GUI代理通常是使用包含可以在单个应用程序中完成的简单任务的数据集进行训练,导致在跨应用程序导航方面性能表现不佳。为了解决这个问题,我们介绍了GUI Odyssey,这是一个全面的数据集,可用于训练和评估跨应用程序导航代理。GUI Odyssey包括来自6个移动设备的7735个情节,涵盖了6种类型的跨应用程序任务、201个应用程序和1.4K个应用程序组合。利用GUI Odyssey,我们开发了OdysseyAgent,这是一个多模式跨应用程序导航代理,通过使用历史重采样模块微调Qwen-VL模型进行训练。广泛的实验表明,与现有模型相比,OdysseyAgent具有更高的准确性。例如,OdysseyAgent在域内准确性方面比微调Qwen-VL和零样本GPT-4V分别高出1.44%和55.49%,在域外准确性方面平均高出2.29%和48.14%。数据集和代码将在\url{https://github.com/OpenGVLab/GUI-Odyssey}上发布。
- 图表
- 解决问题本文试图解决跨应用程序导航的问题,提出了一个全面的数据集GUI Odyssey,并提出了一个多模态的跨应用程序导航代理OdysseyAgent。
- 关键思路作者通过fine-tuning Qwen-VL模型并使用历史重采样模块,开发了一个多模态的跨应用程序导航代理OdysseyAgent,并证明了其在准确性方面的优越性。
- 其它亮点作者提出了一个全面的数据集GUI Odyssey,包含了6种类型的跨应用程序任务,201个应用程序和1.4K应用程序组合。作者开发了一个多模态的跨应用程序导航代理OdysseyAgent,并证明了其在准确性方面的优越性。作者将数据集和代码公开。
- 最近的相关研究包括:1)CrossAppNav:使用深度学习模型进行跨应用程序导航的研究;2)COSMIC:一个用于跨应用程序导航的开放数据集。
沙发等你来抢
去评论
评论
沙发等你来抢