- 简介在人工智能领域,构建一个通用智能体一直是一个长期的愿景。现有的智能体在许多领域取得了显著进展,但它们仍然难以完成开放世界中的长期任务。我们认为这是由于缺乏必要的世界知识和多模态经验,这些知识和经验可以指导智能体完成各种长期任务。在本文中,我们提出了一种混合多模态记忆模块来解决上述挑战。它可以将知识转化为分层有向知识图,允许智能体明确地表示和学习世界知识,并将历史信息总结为抽象的多模态经验池,为智能体提供丰富的上下文学习参考。在混合多模态记忆模块的基础上,构建了一个多模态智能体Optimus-1,它具有专门的知识引导规划器和经验驱动反射器,在Minecraft中面对长期任务时具有更好的规划和反思能力。广泛的实验结果表明,Optimus-1在具有挑战性的长期任务基准测试中显著优于所有现有的智能体,并在许多任务上展现出接近人类水平的表现。此外,我们引入了各种多模态大语言模型(MLLMs)作为Optimus-1的支撑。实验结果表明,在混合多模态记忆模块的帮助下,Optimus-1表现出强大的泛化能力,在许多任务上优于GPT-4V基线。
- 图表
- 解决问题论文旨在解决现有智能体在面对开放世界中的长期任务时,由于缺乏必要的世界知识和多模态经验而无法完成任务的问题。作者提出了一种混合多模态记忆模块来解决这些挑战。
- 关键思路论文的关键思路是使用混合多模态记忆模块,将知识转化为分层有向知识图,并将历史信息汇总为抽象的多模态经验池。在此基础上构建了一个多模态智能体Optimus-1,具有专门的知识引导规划器和经验驱动反射器,以更好地规划和反思长期任务。
- 其它亮点论文的实验结果表明,Optimus-1在挑战性的长期任务基准测试中显著优于所有现有的智能体,并在许多任务上表现出接近人类水平的性能。此外,作者还介绍了各种多模态大语言模型(MLLMs)作为Optimus-1的主干。实验结果表明,在混合多模态记忆模块的帮助下,Optimus-1具有强大的泛化能力,在许多任务上优于GPT-4V基线。
- 最近在这个领域中,还有一些相关的研究,例如《Graph-based Memory Transformer for Large-scale Language Modeling》、《Learning to Explore using Active Neural Mapping》等。
沙发等你来抢
去评论
评论
沙发等你来抢