- 简介从异构数据中训练通用机器人策略是一个重大挑战。现有的机器人数据集在不同的模态(如颜色、深度、触觉和本体感信息)和不同的领域(如模拟、真实机器人和人类视频)中收集,现有的方法通常收集并汇总来自一个领域的所有数据来训练一个单一策略以处理任务和领域的异质性,这是非常昂贵和困难的。本文提出了一种灵活的方法,称为策略组合,通过组合使用表示扩散模型的不同数据分布,结合这些不同的模态和领域信息来学习场景级别和任务级别的通用操作技能。我们的方法可以使用多任务操作的任务级别组合,并与分析成本函数组合在一起,以在推理时调整策略行为。我们在模拟、人类和真实机器人数据上训练了我们的方法,并在工具使用任务中进行了评估。组合策略在不同的场景和任务下实现了强大和灵巧的表现,并在模拟和现实世界实验中优于单一数据源的基线。更多详情请见https://liruiw.github.io/policycomp。
- 图表
- 解决问题如何从不同的数据来源中训练出通用的机器人策略?如何处理来自模拟、真实机器人和人类视频等不同领域和不同模态的数据?
- 关键思路提出了一种名为Policy Composition的方法,通过组合不同的扩散模型来表示不同的数据分布,从而实现对多模态和多领域数据的组合。该方法可以用于多任务操作,也可以与解析成本函数组合以在推理时自适应地调整策略行为。
- 其它亮点论文采用了Policy Composition方法,使用了来自模拟、真实机器人和人类视频的数据集,并在工具使用任务中进行了评估。实验结果表明,该方法实现了对多模态和多领域数据的组合,并在不同场景和任务下实现了鲁棒和灵活的性能表现。此外,该方法还在模拟和真实世界实验中均优于单一数据源的基线。
- 近期的相关研究包括:《Multi-modal Learning from Unlabeled Videos》、《Learning to Learn from Simulation for Robotic Manipulation》、《Unsupervised Learning of Object Keypoints for Perception and Control》等。
沙发等你来抢
去评论
评论
沙发等你来抢