

关键词:堆叠物体,安全操作,支撑关系

导 读
本文是对 RSS 2024 入选论文 Broadcasting Support Relations Recursively from Local Dynamics for Object Retrieval in Clutters 的解读。该论文由北京大学董豪老师组完成,共同第一作者为本科生李宜桐和博士生吴睿海。
本文提出了直观、准确、鲁棒的物体支撑关系图推理算法,并基于该推理算法实现了机械臂在复杂堆叠场景中的安全高效抓取。作者利用 particle-based 动力学模型,和在文章中提出的多体问题“相邻递归广播”思想,在物体关系判断准确性和任务执行成功率、高效性等多个指标上,取得了远超前人工作的结果,为实现具身智能理解复杂物理场景提出了具有启发性和延拓性的新思路。
论文链接:
https://arxiv.org/abs/2406.02283
项目主页:
https://lyttttt3333.github.io/broadcast.github.io/
代码:
https://github.com/lyttttt3333/Broadcast_Support_Relation
01
研究背景

图1
物体杂乱堆叠场景在日常生活中广泛存在(如图1),并且往往对操作的安全性具有较高要求。例如在厨房洗碗池中,大量的瓷制、玻璃制餐具杂乱堆叠,物体材质脆弱,物体间支撑关系复杂,如果操作不当发生碰撞或者掉落,容易造成物体破碎。此外,书桌、餐桌、橱柜、吧台等场景下,都存在多物体的杂乱堆叠摆放,这些场景中的操作任务,也被赋予较高的安全性要求。

图2
在本文中,我们研究了物体杂乱堆叠场景中的安全抓取任务。具体而言,对于存在多个物体、且物体之间存在支撑关系的场景,要求取出某个指定物体,同时避免物体间的碰撞或掉落。如图2所示,我们指定 A 作为目标抓取物体时,BCD 被 A 所支撑,要安全取出 A,就需要首先将这些被支撑物体(即 BCD)取出,否则,如果直接进行抓取操作,就会造成其他物体的掉落。同时,当我们抓取 BCD 时,也要注意其内部的支撑顺序,如需要先抓取 C 才能抓取 B,否则都会造成物体的掉落损坏。

图3
这一任务对机器人具有极大的挑战性,其最大的困难在于需要机器人拥有对复杂场景深入的物理理解,进行物体之间支撑关系推理,从而规划安全合理的抓取路径。多体复杂场景结构千变万化,物体间支撑关系非常复杂,长程支撑关系广泛存在(两个物体之间不直接接触,而是通过一个或者多个中间物体形成间接支撑关系。如图3所示,A 和 D 没有任何接触,但其通过 B、C 形成支撑关系)。其结构的复杂性和多样性要求的不仅是普遍意义上的泛化能力,更是对物理规律的学习与建模。因此,强化学习、模仿学习等端到端方法几乎无法完成该任务,而图神经网络等方法则可以在一些简单场景上取得效果,但常规的建图方法也无法实现复杂场景上的有效推理。
02
方 法
基于此前研究的经验与基础,从多物体蕴含的“图”结构出发,本文作者提出“递归邻接广播”作为核心思想和基本架构,并借助 particle-based 动力模型,实现了在复杂堆叠场景中任意目标物体支撑关系精准推理,取得了远超此前方法的表现。
研究者首先尝试了图神经网络的方法,经过实验发现,当物体数量较少或者图的规模较小时,图神经网络可以较为精确地推理出物体间的支撑关系,而当图神经网络中节点数量提高时,推理正确率则急剧下降。基于这点观察,研究者发现可以通过多个局部图逐步建构起全场景精确的物理关系图,并最终提出“递归邻接广播”算法。

图4
具体而言,该算法从目标物体开始,构建“目标物体-邻接物体集合”的局部关系图,判断在邻接物体集合中哪些物体被目标物体支撑,将这些被支撑物体视为目标物体的子节点,我们将这样的过程称为“邻接广播”。对于在上次推理中得到的目标物体的子节点,则以这些物体为“源”再次进行“邻接广播”,求得这些物体的子节点……以此循环,直到某次推理后没有新增子节点,则说明我们已经完全探索出目标物体下的全部物体关系,并可以以此规划出一条可行的抓取路径。“邻接广播”的的递归实现,在保留局部关系推理精准性的同时,将物理关系图逐步拓展到场景全局,不论是物体间的直接支撑关系,还是上述的长程支撑关系,该算法都可以精准捕捉,使机器人对复杂场景的精准物理理解成为可能。
对于“目标物体-邻接物体集合”局部关系图的构建,考虑到真实场景中物体丰富的几何形状与姿态,我们采取 particle-based 动力模型估计两个物体之间的支撑关系。particle-based 模型不进行物体层级的特征提取,而是将其表现为大量粒子,通过估计粒子的运动判断物体的被支撑与否。这样粒子层次的表征解构了物体复杂的几何形态,使得物体关系推理可以泛化到一系列具有复杂多样几何形态的物体上,使其可以实现邻接物体间关系的精准判断,为全场景关系图 的构建打下基础。图4展示了整套方法。

图5
此外,物体堆叠场景存在大量遮挡,如两个具有支撑关系的物体的接触点可能被遮挡。这种不完全观测可能影响关系推理的准确性。面对这个问题,如图5所示,作者提出长程动态调整方法,即在操作过程中,当下一个抓取物体的邻接集合发生变化时,重新估计其支撑关系 。由于物体遮挡逐步被消除,更多细节信息暴露,让我们可以根据更新后的细节信息进行更为准确的支撑关系判断。在上述物体关系推理架构的基础上,我们又通过视觉先验方法训练物体抓取点位和姿态预测模型,实现了完整的物体堆叠场景下理解-操作框架。
03
实验结果
在模拟环境中,我们在 Isaac Sim 仿真软件上基于 ShapeNet 等数据集物体素材搭建了物体堆叠场景数据集,分为书桌、餐桌、杂物等场景类别,包含大量多样、丰富、真实的物体和场景实例。我们在这个数据集上进行实验用以评估本文提出的方法,并将其与 SafePick 等先前工作提出的方法进行对比。实验结果表明,我们的方法在理解堆叠物体支撑关系和安全抓取方面有着非常优异的表现,先对于此前工作有着大幅度领先。深入而广泛的消融实验也证明了本文提出模型的合理性,尤其是局部动态估计的递归广播算法的重要意义。
视频2. 真实世界中物体支撑关系理解
视频3. 真实世界中的抓取(1)
视频4. 真实世界中的抓取(2)
视频5. 真实世界中的抓取(3)
在真实世界实验中,我们的算法也表现出优秀的性能,在一系列日常真实场景中成功理解了物体的支撑关系,并成功完成抓取任务。
04
总 结
本文提出了一套完整的面向真实世界堆叠场景的复杂物理关系推理与安全抓取的模型框架。其通过递归推理方式,仅需 RGBD 输入便可实现多物体复杂支撑关系推理,并进一步安全抓取的目标。此外,本文提出的递归广播方法也具有较强的拓展性,可以将局部信息的准确估计扩展到全局信息的准确判断,避免了直接进行全局信息判断造成的物理推理能力失真,对场景理解和物体操作领域具有启发性意义。
PKU-Agibot Lab
PKU-Agibot Lab 由北京大学前沿计算研究中心董豪助理教授领导,该科研团队专注于机器人视觉,物体操作,语义导航和具身自主决策等领域的前沿技术,致力于为工业应用和家用场景创建具有成本效益的人形机器人。
实验室 PI 简介:董豪 助理教授
实验室相关新闻:#PKU Agibot Lab

扫码浏览实验室主页
https://zsdonghao.github.io/

图文 | 李宜桐 吴睿海
PKU-Agibot Lab
PKU-Agibot Lab 近期科研动态


— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

点击“阅读原文”转论文地址
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢