- 简介空间感知机器人的一项关键能力是能够“确定自身方位”,即在先前见过的空间中准确定位自己。本文聚焦于连续机器人运行的特定场景,利用实际任务开始前已观察到的信息来提升运行效率。我们提出了一种名为Kinaema的新模型及智能体,该智能体能够在潜在的大规模场景中移动时持续整合视觉观测流,并在接收到查询图像时,分析该图像所展示空间相对于其当前位置的相对位姿。我们的模型并不显式存储观测历史,因此对上下文长度没有严格的限制。它通过一种循环方式更新隐式的潜在记忆,利用Transformer将传感器读数的历史压缩为紧凑的表征。我们在一项新提出的下游任务“Mem-Nav”中评估了该模型的效果。实验表明,这种具有大容量的循环模型能够维持对场景的有效表征,成功导航至实际任务开始前所观察到的目标位置,并且在计算上更为高效,尤其相较于需对观测历史进行注意力计算的经典Transformer模型而言。
- 图表
- 解决问题论文试图解决空间感知机器人在连续操作中如何有效‘定位自身’的问题,即在重新进入曾观测过的空间时,能够准确估计查询图像所展示位置相对于当前位置的位姿。该问题尤其关注利用 episode 开始前的历史观测信息来提升导航效率,属于持续性机器人任务中的长期记忆与场景理解挑战。虽然定位与导航是经典问题,但结合隐式记忆建模与长时视觉上下文整合的高效方法仍较新颖。
- 关键思路提出Kinaema模型,通过一个递归更新的Transformer架构维护一个隐式的、紧凑的潜在记忆状态,而非显式存储所有历史观测。该模型能持续整合移动过程中的视觉输入,并在接收到查询图像时预测其相对于当前位姿的位置。关键创新在于避免了传统Transformer对注意力历史的长度限制,实现了无固定上下文长度约束的高效在线推理。
- 其它亮点引入新的下游任务“Mem-Nav”,用于评估长期视觉记忆在导航中的作用;实验表明Kinaema在大场景中能有效构建和利用场景表征,成功导航至episode开始前观察到的目标位置;相比标准Transformer具有更高的计算效率和可扩展性;模型未显式保存观测序列,内存占用更优;目前论文未提及是否开源代码,数据集细节需进一步查阅原文。值得深入研究的方向包括将该隐式记忆机制扩展到多模态传感器输入以及真实机器人部署。
- 1. 'Visual-Inertial Localization with Semantic Priors', ICRA 2023 2. 'Memory-Augmented Navigation for Embodied Agents', NeurIPS 2022 3. 'Spatial Memory for Robotics: A Survey', IEEE TRO 2023 4. 'Transformers in Robotics: A Review', IROS 2023 5. 'Learning to Remember: Continual Visual SLAM with Neural Maps', CVPR 2023
沙发等你来抢
去评论

评论
沙发等你来抢