Scaling Manipulation Learning with Visual Kinematic Chain Prediction

简介

在机器学习领域，从不同数据集中学习通用模型已经取得了巨大成功。然而，在机器人领域，现有的多任务学习方法通常仅限于单个机器人和工作空间，而最近的工作（如RT-X）需要进行非平凡的动作规范化过程，以手动弥合不同环境中不同动作空间之间的差距。本文中，我们提出了视觉运动链作为机器人学习多样化环境下准静态动作的精确和通用表示，由于视觉运动链可以从机器人的模型和相机参数自动获取，因此不需要手动调整。我们提出了Visual Kinematics Transformer（VKT），这是一种不需要卷积的架构，支持任意数量的摄像机视角，并通过最优点集匹配来训练单一目标的运动结构预测。我们展示了VKT在Calvin、RLBench、Open-X和真实机器人操作任务中作为通用代理的优越性能。视频演示可在https://mlzxy.github.io/visual-kinetic-chain找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决机器人学习中的多任务学习问题，如何在多个不同的环境中学习机器人的行为模式。
关键思路

该论文提出了视觉运动链作为机器人学习多样化环境下准静态动作的精确且通用的表示方法，不需要手动调整，因为可以从机器人的模型和相机参数自动获得。
其它亮点

该论文提出了Visual Kinematics Transformer（VKT）作为一种卷积-free的架构，支持任意数量的相机视角，并通过最优点集匹配的单一目标进行训练，展示了VKT在Calvin，RLBench，Open-X和真实机器人操作任务中作为通用智能体的优越性能。
相关研究

最近的相关研究包括RT-X等，需要手动调整不同环境中的动作空间，而VKT可以自动获得视觉运动链，避免了这种手动调整。

Scaling Manipulation Learning with Visual Kinematic Chain Prediction

提问交流

提问交流