- 简介人类通常依赖记忆来完成任务,然而大多数机器人策略缺乏这种能力;我们的目标正是赋予机器人策略同样的记忆能力。简单地以长时观测历史作为条件不仅计算成本高昂,而且在协变量偏移下表现脆弱,而不加区分地对历史进行降采样则会导致信息无关或冗余。我们提出一种分层策略框架,其中高层策略被训练以从自身经验中选择并追踪此前相关的关键帧。高层策略在生成文本指令时,会结合所选的关键帧和最新的观测帧,供底层策略执行。该设计与现有的视觉-语言-动作(VLA)模型兼容,使系统能够高效地处理长时间跨度的依赖关系。在实验中,我们分别微调Qwen2.5-VL-7B-Instruct和$\pi_{0.5}$作为高层和底层策略,使用附带少量语言标注的演示数据进行训练。我们的方法MemER在三项需要数分钟记忆的现实世界长时程机器人操作任务上,优于先前的方法。相关视频和代码详见 https://jen-pan.github.io/memer/。
-
- 图表
- 解决问题机器人策略通常缺乏长期记忆能力,难以在需要长时间依赖历史信息的复杂任务中持续表现良好。现有方法要么计算成本高、对分布偏移敏感,要么因随机采样历史帧而丢失关键信息。该论文试图解决如何让机器人策略高效、可靠地利用长期视觉-语言观察历史的问题,这是一个在真实世界长时程操作任务中尚未被很好解决的重要问题。
- 关键思路提出MemER框架,采用分层策略:高层策略主动选择和跟踪历史中的关键帧(keyframes),并结合最新观测生成文本指令;底层策略执行这些指令。这种设计使系统能高效推理长时程依赖,同时兼容现有的视觉-语言-动作(VLA)模型,避免直接处理冗长历史带来的计算与稳定性问题。其创新在于引入可学习的关键帧选择机制,实现记忆的有目的性与稀疏化。
- 其它亮点在三个真实世界的长时程机器人操作任务上验证,任务持续数分钟且需记忆支持;使用Qwen2.5-VL-7B-Instruct和π₀.₅分别作为高低层策略,仅需少量语言标注的演示数据进行微调;实验显示性能优于先前方法;代码与视频已开源发布,项目主页为 https://jen-pan.github.io/memer/;未来可探索更复杂的记忆更新机制或跨任务泛化能力。
- 1. 'PaLM-E: An Embodied Multimodal Language Model' (ICRA 2023) 2. 'RT-2: Vision-Language-Action Models for Vision-Based Robotic Manipulation' (RSS 2023) 3. 'Octo: A Modular, Motion-Centric Framework for Robot Imitation Learning' (CoRL 2023) 4. 'Flamingo: a Visual Language Model for Few-Shot Learning' (NeurIPS 2022) 5. 'Perceiver AR: General Perception with Iterative Attention' (NeurIPS 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流