Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

2024年08月07日
  • 简介
    在人工智能领域,构建一个通用智能体一直是一个长期的愿景。现有的智能体在许多领域取得了显著进展,但它们仍然难以完成开放世界中的长期任务。我们认为这是由于缺乏必要的世界知识和多模态经验,这些知识和经验可以指导智能体完成各种长期任务。在本文中,我们提出了一种混合多模态记忆模块来解决上述挑战。它可以将知识转化为分层有向知识图,允许智能体明确地表示和学习世界知识,并将历史信息总结为抽象的多模态经验池,为智能体提供丰富的上下文学习参考。在混合多模态记忆模块的基础上,构建了一个多模态智能体Optimus-1,它具有专门的知识引导规划器和经验驱动反射器,在Minecraft中面对长期任务时具有更好的规划和反思能力。广泛的实验结果表明,Optimus-1在具有挑战性的长期任务基准测试中显著优于所有现有的智能体,并在许多任务上展现出接近人类水平的表现。此外,我们引入了各种多模态大语言模型(MLLMs)作为Optimus-1的支撑。实验结果表明,在混合多模态记忆模块的帮助下,Optimus-1表现出强大的泛化能力,在许多任务上优于GPT-4V基线。
  • 图表
  • 解决问题
    论文旨在解决现有智能体在面对开放世界中的长期任务时,由于缺乏必要的世界知识和多模态经验而无法完成任务的问题。作者提出了一种混合多模态记忆模块来解决这些挑战。
  • 关键思路
    论文的关键思路是使用混合多模态记忆模块,将知识转化为分层有向知识图,并将历史信息汇总为抽象的多模态经验池。在此基础上构建了一个多模态智能体Optimus-1,具有专门的知识引导规划器和经验驱动反射器,以更好地规划和反思长期任务。
  • 其它亮点
    论文的实验结果表明,Optimus-1在挑战性的长期任务基准测试中显著优于所有现有的智能体,并在许多任务上表现出接近人类水平的性能。此外,作者还介绍了各种多模态大语言模型(MLLMs)作为Optimus-1的主干。实验结果表明,在混合多模态记忆模块的帮助下,Optimus-1具有强大的泛化能力,在许多任务上优于GPT-4V基线。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《Graph-based Memory Transformer for Large-scale Language Modeling》、《Learning to Explore using Active Neural Mapping》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论