GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation

向作者提问

NEW

简介

“具身化人工智能”社区在视觉导航任务方面取得了重大进展，探索了从3D坐标、物体、语言描述和图像中探索目标。然而，这些导航模型通常只处理单个输入模态作为目标。通过迄今为止取得的进展，现在是时候转向通用导航模型，能够处理各种目标类型，从而实现更有效的用户与机器人交互。为了促进这一目标，我们提出了GOAT-Bench，这是一个通用导航任务的基准，称为“GO to AnyThing”（GOAT）。在这个任务中，代理被指示导航到由类别名称、语言描述或图像指定的一系列目标，以开放词汇的方式。我们在GOAT任务上对单片RL和模块化方法进行基准测试，分析它们在各种模态下的性能、显式和隐式场景记忆的作用、它们对目标规范中噪声的鲁棒性以及记忆在终身情境下的影响。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决通用导航任务中的多模态目标问题，提出了一个称为GOAT的任务，并针对这个任务对单体强化学习和模块化方法进行了基准测试。
关键思路

论文提出了一个通用导航任务GOAT，要求智能体能够根据类别名称、语言描述或图像等多种输入模式导航到指定的目标，并通过基准测试对不同方法的性能进行了评估。
其它亮点

论文对不同方法在多模态目标任务上的表现进行了评估，并分析了显式和隐式场景记忆、目标规范中噪声的鲁棒性以及记忆在终身学习场景中的影响。此外，论文还提出了一个名为GOAT-Bench的基准测试，并公开了数据集和代码。
相关研究

最近的相关研究包括：《Embodied Language Grounding with Multimodal Context-Aware Attention》、《Learning to Navigate in Cities Without a Map》、《Towards Universal Intelligence: Testing Grounded Navigation in Novel Environments》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问