HAPFI: History-Aware Planning based on Fused Information

2024年07月23日
  • 简介
    Embodied Instruction Following(EIF)是一项任务,旨在根据高层自然语言指令(例如“冲洗一片莴苣并将其放在白色桌子旁的叉子上”)计划一系列子目标。为了成功执行这些长期视野的任务,我们认为代理必须考虑其过去,即历史数据,在每个步骤中做出决策。然而,最近EIF的方法经常忽略历史数据中的知识,并且也没有有效地利用跨模态的信息。为此,我们提出了基于融合信息的历史感知规划(HAPFI),有效地利用代理与环境交互时收集的来自不同模态的历史数据。具体而言,HAPFI通过我们的相互关注融合方法有效地融合多种模态,包括历史RGB观察、边界框、子目标和高层指令。通过多种比较实验,我们展示了利用历史多模态信息的代理在行动规划能力方面超越了所有忽略历史数据的比较方法,从而使下一步生成明智的行动计划。此外,我们提供了定性证据,突出了利用历史多模态数据的重要性,特别是在代理遇到中间失败的情况下,展示了其强大的重新规划能力。
  • 图表
  • 解决问题
    本论文旨在解决Embodied Instruction Following(EIF)任务中历史数据的利用问题,提出了一种基于多模态信息的历史感知规划方法(HAPFI),通过有效地融合多种模态数据,实现对历史数据的利用,从而提高智能体的行动规划能力。
  • 关键思路
    HAPFI方法通过Mutually Attentive Fusion方法将多种模态数据进行融合,有效地利用历史数据,从而提高了智能体的行动规划能力。
  • 其它亮点
    论文在多个实验中验证了HAPFI方法的有效性,结果表明,利用历史数据的智能体在行动规划能力上优于忽略历史数据的智能体。论文还提供了定性证据,说明利用历史数据对智能体的鲁棒性具有重要意义。同时,论文使用了多个数据集,并开源了代码。
  • 相关研究
    在这个领域中,还有一些相关的研究,如Embodied AI、Reinforcement Learning等。相关论文包括:《Embodied AI: Challenges and Opportunities》、《Reinforcement Learning: An Introduction》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论