- 简介最近的研究已经证明了基础智能体在特定任务或场景中的成功。然而,现有的智能体无法在不同的场景中进行泛化,主要是因为它们的观察和行动空间多样化,存在语义鸿沟,或依赖于任务特定的资源。在这项工作中,我们提出了通用计算机控制(GCC)设置:构建基础智能体,通过仅以计算机的屏幕图像(和可能的音频)作为输入,以及产生键盘和鼠标操作作为输出,类似于人机交互,可以掌握任何计算机任务。为了针对GCC,我们提出了Cradle,一个具有强大推理能力的智能体框架,包括自我反思、任务推断和技能培育,以确保各种任务的泛化和自我提高。为了展示Cradle的能力,我们将其部署在复杂的AAA游戏《荒野大镖客2》中,作为GCC的初步尝试,具有挑战性的目标。我们的智能体可以按照主线故事情节完成这个复杂的AAA游戏中的真实任务,最小化地依赖先前的知识和应用特定的资源。该项目网站位于https://baai-agents.github.io/Cradle/。
- 图表
- 解决问题本论文旨在解决现有基础代理无法在不同场景下泛化的问题,并提出了General Computer Control (GCC)设置,通过仅以计算机屏幕图像(和可能的音频)作为输入,生成键盘和鼠标操作作为输出,从而构建可以掌握任何计算机任务的基础代理。
- 关键思路为了实现GCC,本文提出了Cradle代理框架,具有强大的推理能力,包括自我反思、任务推断和技能整理,以确保在各种任务中具有普适性和自我提升。
- 其它亮点通过在复杂的AAA游戏Red Dead Redemption II中部署Cradle,本文展示了Cradle的能力,可以在此复杂的AAA游戏中完成主要情节并完成真实任务,几乎不依赖先前的知识和应用程序特定资源。此外,本文的项目网站提供了开源代码和数据集。
- 最近在这个领域中,还有一些相关的研究,如基于强化学习的计算机游戏代理,如DQN和A3C,以及基于注意力机制的计算机游戏代理,如IMPALA和R2D2。
沙发等你来抢
去评论
评论
沙发等你来抢