DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning

2024年06月14日
  • 简介
    视觉语言模型(VLM)的训练语料库通常缺乏足够的决策中心数据,这使得现成的VLM在决策任务(例如通过图形用户界面(GUI)进行野外设备控制)方面不够优化。虽然使用静态演示进行训练已经显示出一定的前景,但我们表明这种方法在控制真实GUI方面存在缺陷,因为它们无法处理静态观察数据中未捕获的真实世界随机性和非平稳性。本文介绍了一种称为DigiRL的新型自主RL方法,用于通过微调预训练的VLM来训练野外设备控制代理,分为两个阶段:离线RL用于初始化模型,然后是离线到在线RL。为此,我们构建了一个可扩展和可并行化的Android学习环境,配备了基于VLM的评估器,并开发了一种简单而有效的RL方法来学习这个领域。我们的方法运行带优势权重的RL,其中优势估计器增强了对随机性的考虑,并具有自动课程表,以获得最大的学习信号。我们使用Android-in-the-Wild(AitW)数据集展示了DigiRL的有效性,其中我们的13亿VLM在RL训练下取得了49.5%的绝对改进-从17.7%到67.2%的成功率-超过了使用静态人类演示数据进行监督微调的先前最佳代理,包括具有GPT-4V的AppAgent(8.3%成功率)和使用AitW数据训练的17B CogAgent(38.5%),以及基于过滤行为克隆的先前最佳自主RL方法(57.8%),从而为野外设备控制的数字代理建立了新的最先进技术。
  • 图表
  • 解决问题
    本论文旨在解决视觉语言模型(VLM)在决策中心数据方面的不足,导致现有的VLM不适用于实时设备控制任务,因此引入了一种新的自主强化学习方法DigiRL。
  • 关键思路
    DigiRL通过两个阶段的离线强化学习来微调预训练的VLM,以实现在实时设备控制任务中的应用。此外,作者还构建了一个可扩展和可并行化的Android学习环境,并开发了一个简单而有效的RL方法,用于在此领域进行学习。
  • 其它亮点
    DigiRL在Android-in-the-Wild(AitW)数据集上进行了测试,结果表明,相对于使用静态人类演示数据进行监督微调的方法,1.3B VLM使用RL的成功率从17.7%提高到了67.2%,取得了49.5%的绝对改进。此外,DigiRL还超越了先前最好的代理,包括使用GPT-4V的AppAgent(8.3%成功率)和使用AitW数据训练的17B CogAgent(38.5%),并建立了一个新的数字代理的最新技术。
  • 相关研究
    最近的相关研究包括AppAgent,CogAgent等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论