MemER: Scaling Up Memory for Robot Control via Experience Retrieval

向作者提问

NEW

简介

人类通常依赖记忆来完成任务，然而大多数机器人策略缺乏这种能力；我们的目标正是赋予机器人策略同样的记忆能力。简单地以长时观测历史作为条件不仅计算成本高昂，而且在协变量偏移下表现脆弱，而不加区分地对历史进行降采样则会导致信息无关或冗余。我们提出一种分层策略框架，其中高层策略被训练以从自身经验中选择并追踪此前相关的关键帧。高层策略在生成文本指令时，会结合所选的关键帧和最新的观测帧，供底层策略执行。该设计与现有的视觉-语言-动作（VLA）模型兼容，使系统能够高效地处理长时间跨度的依赖关系。在实验中，我们分别微调Qwen2.5-VL-7B-Instruct和$\pi_{0.5}$作为高层和底层策略，使用附带少量语言标注的演示数据进行训练。我们的方法MemER在三项需要数分钟记忆的现实世界长时程机器人操作任务上，优于先前的方法。相关视频和代码详见 https://jen-pan.github.io/memer/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

机器人策略通常缺乏长期记忆能力，难以在需要长时间依赖历史信息的复杂任务中持续表现良好。现有方法要么计算成本高、对分布偏移敏感，要么因随机采样历史帧而丢失关键信息。该论文试图解决如何让机器人策略高效、可靠地利用长期视觉-语言观察历史的问题，这是一个在真实世界长时程操作任务中尚未被很好解决的重要问题。
关键思路

提出MemER框架，采用分层策略：高层策略主动选择和跟踪历史中的关键帧（keyframes），并结合最新观测生成文本指令；底层策略执行这些指令。这种设计使系统能高效推理长时程依赖，同时兼容现有的视觉-语言-动作（VLA）模型，避免直接处理冗长历史带来的计算与稳定性问题。其创新在于引入可学习的关键帧选择机制，实现记忆的有目的性与稀疏化。
其它亮点

在三个真实世界的长时程机器人操作任务上验证，任务持续数分钟且需记忆支持；使用Qwen2.5-VL-7B-Instruct和π₀.₅分别作为高低层策略，仅需少量语言标注的演示数据进行微调；实验显示性能优于先前方法；代码与视频已开源发布，项目主页为 https://jen-pan.github.io/memer/；未来可探索更复杂的记忆更新机制或跨任务泛化能力。
相关研究

1. 'PaLM-E: An Embodied Multimodal Language Model' (ICRA 2023) 2. 'RT-2: Vision-Language-Action Models for Vision-Based Robotic Manipulation' (RSS 2023) 3. 'Octo: A Modular, Motion-Centric Framework for Robot Imitation Learning' (CoRL 2023) 4. 'Flamingo: a Visual Language Model for Few-Shot Learning' (NeurIPS 2022) 5. 'Perceiver AR: General Perception with Iterative Attention' (NeurIPS 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问