- 简介使具身体的代理人能够根据自然语言完成复杂的人类指令对于家庭服务的自主系统至关重要。传统方法只能在已知环境中完成人类指令,其中所有交互对象都提供给了具身体的代理人,而直接将现有方法部署到未知环境通常会生成操作不存在对象的不可行计划。相反,我们提出了一种在未知环境中完成复杂任务的具身体指令跟随(EIF)方法,其中代理人有效地探索未知环境,生成可行的计划,以现有对象完成抽象指令。具体而言,我们构建了一个分层的具身体指令跟随框架,包括高层任务规划器和低层探索控制器,使用多模式大型语言模型。然后,我们使用动态区域注意力构建场景的语义表示地图,以展示已知的视觉线索,其中任务规划和场景探索的目标与人类指令对齐。对于任务规划器,我们根据任务完成过程和已知的视觉线索生成可行的逐步计划,以实现人类目标的完成。对于探索控制器,基于生成的逐步计划和已知的视觉线索,预测最优导航或对象交互策略。实验结果表明,我们的方法可以在大型房屋级场景中完成204个复杂的人类指令,例如做早餐和整理房间,成功率为45.09%。
- 图表
- 解决问题本文旨在解决家庭服务中复杂任务的语言指令转化问题,特别是在未知环境下,如何让机器人根据已知的视觉线索探索环境并生成可行的计划。
- 关键思路本文提出了一种基于层次化指令跟随框架的方法,包括高层任务规划器和低层探索控制器,利用多模态大型语言模型构建语义表示地图,并结合动态区域注意力来对场景进行建模,实现了语言指令的转化和环境探索的对齐。
- 其它亮点本文在大型房屋场景中进行了实验,共204个复杂任务,如做早餐和整理房间,取得了45.09%的成功率。该方法可以在未知环境下生成可行的计划,并根据已知的视觉线索进行场景探索。同时,本文提出的层次化指令跟随框架可以为其他领域的语言指令转化问题提供参考。
- 在这个领域中,最近的相关研究包括:1.《Embodied Language Grounding with Off-Policy Actor-Critic Optimization》;2.《Learning to Follow Language Instructions in a Continuous Environment》;3.《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》。
沙发等你来抢
去评论
评论
沙发等你来抢