- 简介本文介绍了一种新的范式,有效利用操纵技能的潜在建模和高效的视觉动作潜在扩散策略,提高了现有跨体验和跨环境数据集的利用效率,从而提高了多任务能力。本文的方法包括两个解耦阶段:动作建模和策略建模。首先,我们介绍了一个任务不可知、具有体现感知的轨迹潜在自编码器,用于统一的动作技能建模。这一步将动作数据和观测结果压缩到一个简化的潜在空间中,有效利用了大规模的跨数据集。其次,我们提出使用视觉动作潜在扩散策略,从噪声中恢复目标技能潜在,以实现有效的任务执行。我们在两个广泛使用的基准测试上进行了大量实验,结果表明我们提出的范式在多任务和预训练方面的有效性。代码可在https://github.com/AlbertTan404/RoLD中找到。
- 图表
- 解决问题本论文旨在解决计算机视觉和机器人领域长期以来的一个问题:如何建立一个通用的视觉-动作策略,以提高多任务执行效率和应用能力?
- 关键思路该论文提出了一种新的范式,通过操纵技能的潜在建模和有效的视觉-动作潜在扩散策略,有效利用现有的跨体验和跨环境数据集,从而提高多任务能力。
- 其它亮点论文的方法包括两个解耦阶段:动作建模和策略建模。首先,引入一种任务不可知的、具有体现感知的轨迹潜在自编码器,用于统一动作技能建模。其次,提出使用视觉-动作潜在扩散策略,从噪声中恢复目标技能潜在,以实现有效的任务执行。论文在两个广泛使用的基准测试中进行了大量实验,结果表明了该方法在多任务和预训练方面的有效性。代码已开源。
- 最近在这个领域中,有一些相关的研究,例如“Learning to Learn from Demonstrations Using Bayesian Optimization”,“Learning a Visuomotor Controller for Real-world Mobile Manipulation Using Deep Reinforcement Learning”,“Learning Latent Plans from Play”,等等。
沙发等你来抢
去评论
评论
沙发等你来抢