整理是家务的主要内容,也是机器人在非结构化的环境中与人交互所要具备的基本功能(还包括往书架上摆放图书、在餐桌上移动餐具或将咖啡豆堆成堆等功能)。有些工作对于人类来说十分容易,却会给机器学习系统带来不小的挑战。比如,在整理书籍的时候,既需要考虑书的叠放位置和顺序,也需要确保书籍的边角相互对齐。

在机器学习的众多领域中,模型架构的些许不同也许会带来巨大的泛化性差异。例如,卷积结构在计算机视觉中很普遍,它可以有效编码平移不变性,使得不同位置状态的图像可以获取相同的响应。

而Transformer架构则通常用于语言处理过程中,利用自注意力机制来捕捉长程依赖关系。在机器人应用中,常常在学习到的模型中使用位置、关键点或目标描述子等以目标为中心的架构,但这些表示需要额外的手工标注的训练数据,同时,在描述无定形态(黏土团)、液体或零散的材料(切碎的菜)等目标时存在较大困难。

来自谷歌的研究人员提出了名为Transporter Nets的简单模型架构,用于学习基于视觉的物体整理工作。Transporter网络使用了新颖的机制来实现3D空间理解,避免依赖以目标为中心的表示,使其对基于视觉的操作具有更强的泛化性。同时,相比于基准方法,它具有更高的采样效率,在真实的机器人应用中更迅速、实用。

研究人员已经开放了源码和测评基准仿真套件。

感兴趣的可以继续戳链接。

内容中包含的图片若涉及版权问题,请及时与我们联系删除