我们知道,机器学习(ML)多个子领域(如 NLP 和 CV)的最新重大进展通过一种共享的通用方法实现,该方法充分利用大规模、多样化数据集以及有效吸收所有数据的表达模型。尽管已经有各种尝试将这种方法应用于机器人技术,但机器人还没能利用到高性能模型。
构成挑战的因素有几个。首先缺乏大规模和多样化机器人数据,这限制了模型吸收广泛机器人经验的能力。数据收集对于机器人技术来说成本高昂且具有挑战性,这是因为数据集管理需要工程量大的自主操作或者使用人类远程操作收集的演示。其次缺乏可以从此类数据集中学习并有效泛化的高表达性、可扩展且速度足够快的实时推理模型。
为了解决这些挑战,谷歌机器人团队等提出了 Robotics Transformer 1 (RT-1)。这是一种多任务模型,可以 tokenize 机器人的输入和输出动作,从而在运行时实现高效推理,使实时控制成为可能。
RT-1 模型在包含 130k 个 episode 的大型真实机器人数据集上进行训练,该数据集涵盖了 700 多项任务,使用 Everyday Robots (EDR) 的 13 台机器人在 17 个月内收集而成。数据集中展示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。
-
论文地址:https://robotics-transformer.github.io/assets/rt1.pdf
-
项目地址:https://github.com/google-research/robotics_transformer
该团队对模型和训练集中的许多设计选择进行了仔细评估和消融实验,分析了 tokenization、动作表示和数据集组合的影响。与现有技术相比,RT-1 可以显著改进对新任务、环境和对象的零样本泛化。RT-1 可以以 97% 的成功率执行 700 多个训练指令,并且可以泛化到新的任务、干扰因素和背景。
RT-1 吸收了大量数据,包括涉及多任务、对象和环境的机器人轨迹,实现了更好性能和泛化能力。
最后,该团队将 RT-1 代码开源,希望为未来扩大机器人学习的研究提供宝贵的资源。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢