AppAgent: Multimodal Agents as Smartphone Users

2023年12月21日
  • 简介
    最近大型语言模型的进步使得智能代理能够执行复杂任务。本文介绍了一种基于新型大型语言模型的多模态代理框架,旨在操作智能手机应用程序。我们的框架通过简化的动作空间使代理能够操作智能手机应用程序,模仿人类的操作方式,例如点击和滑动。这种新颖的方法绕过了对系统后端访问的需求,从而扩大了其在各种应用程序中的适用性。我们代理的功能核心是其创新的学习方法。代理通过自主探索或观察人类演示来学习如何使用新应用程序。这个过程生成了一个知识库,代理可以参考这个知识库来执行不同应用程序间的复杂任务。为了展示我们代理的实用性,我们在10个不同的应用程序中进行了50项任务的广泛测试,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具。结果证实了我们代理在处理各种高级任务方面的熟练程度。
  • 作者讲解·2
  • 图表
  • 解决问题
    论文介绍了一种基于大型语言模型的多模态智能代理框架,旨在操作智能手机应用程序。
  • 关键思路
    该框架通过简化的操作空间模拟人类交互,使代理能够操作智能手机应用程序,而无需后端访问。代理通过自主探索或观察人类演示来学习导航和使用新应用程序。
  • 其它亮点
    论文进行了50项任务的广泛测试,包括社交媒体、电子邮件、地图、购物和复杂的图像编辑工具。结果证实了代理在处理多种高级任务方面的熟练程度。
  • 相关研究
    最近的相关研究包括基于深度学习的智能代理和多模态智能系统的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问