Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

简介

在人工智能领域，构建一个通用智能体一直是一个长期的愿景。现有的智能体在许多领域取得了显著进展，但它们仍然难以完成开放世界中的长期任务。我们认为这是由于缺乏必要的世界知识和多模态经验，这些知识和经验可以指导智能体完成各种长期任务。在本文中，我们提出了一种混合多模态记忆模块来解决上述挑战。它可以将知识转化为分层有向知识图，允许智能体明确地表示和学习世界知识，并将历史信息总结为抽象的多模态经验池，为智能体提供丰富的上下文学习参考。在混合多模态记忆模块的基础上，构建了一个多模态智能体Optimus-1，它具有专门的知识引导规划器和经验驱动反射器，在Minecraft中面对长期任务时具有更好的规划和反思能力。广泛的实验结果表明，Optimus-1在具有挑战性的长期任务基准测试中显著优于所有现有的智能体，并在许多任务上展现出接近人类水平的表现。此外，我们引入了各种多模态大语言模型（MLLMs）作为Optimus-1的支撑。实验结果表明，在混合多模态记忆模块的帮助下，Optimus-1表现出强大的泛化能力，在许多任务上优于GPT-4V基线。
图表
解决问题

论文旨在解决现有智能体在面对开放世界中的长期任务时，由于缺乏必要的世界知识和多模态经验而无法完成任务的问题。作者提出了一种混合多模态记忆模块来解决这些挑战。
关键思路

论文的关键思路是使用混合多模态记忆模块，将知识转化为分层有向知识图，并将历史信息汇总为抽象的多模态经验池。在此基础上构建了一个多模态智能体Optimus-1，具有专门的知识引导规划器和经验驱动反射器，以更好地规划和反思长期任务。
其它亮点

论文的实验结果表明，Optimus-1在挑战性的长期任务基准测试中显著优于所有现有的智能体，并在许多任务上表现出接近人类水平的性能。此外，作者还介绍了各种多模态大语言模型（MLLMs）作为Optimus-1的主干。实验结果表明，在混合多模态记忆模块的帮助下，Optimus-1具有强大的泛化能力，在许多任务上优于GPT-4V基线。
相关研究

最近在这个领域中，还有一些相关的研究，例如《Graph-based Memory Transformer for Large-scale Language Modeling》、《Learning to Explore using Active Neural Mapping》等。

许愿开讲

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论