GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation

2024年04月09日
  • 简介
    “具身化人工智能”社区在视觉导航任务方面取得了重大进展,探索了从3D坐标、物体、语言描述和图像中探索目标。然而,这些导航模型通常只处理单个输入模态作为目标。通过迄今为止取得的进展,现在是时候转向通用导航模型,能够处理各种目标类型,从而实现更有效的用户与机器人交互。为了促进这一目标,我们提出了GOAT-Bench,这是一个通用导航任务的基准,称为“GO to AnyThing”(GOAT)。在这个任务中,代理被指示导航到由类别名称、语言描述或图像指定的一系列目标,以开放词汇的方式。我们在GOAT任务上对单片RL和模块化方法进行基准测试,分析它们在各种模态下的性能、显式和隐式场景记忆的作用、它们对目标规范中噪声的鲁棒性以及记忆在终身情境下的影响。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决通用导航任务中的多模态目标问题,提出了一个称为GOAT的任务,并针对这个任务对单体强化学习和模块化方法进行了基准测试。
  • 关键思路
    论文提出了一个通用导航任务GOAT,要求智能体能够根据类别名称、语言描述或图像等多种输入模式导航到指定的目标,并通过基准测试对不同方法的性能进行了评估。
  • 其它亮点
    论文对不同方法在多模态目标任务上的表现进行了评估,并分析了显式和隐式场景记忆、目标规范中噪声的鲁棒性以及记忆在终身学习场景中的影响。此外,论文还提出了一个名为GOAT-Bench的基准测试,并公开了数据集和代码。
  • 相关研究
    最近的相关研究包括:《Embodied Language Grounding with Multimodal Context-Aware Attention》、《Learning to Navigate in Cities Without a Map》、《Towards Universal Intelligence: Testing Grounded Navigation in Novel Environments》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问