

关键词:布料操作; 堆叠物体; 功能可供性

导 读
泛化物体操作是具身智能中的核心挑战。物体存在类别、几何形状以及材质等方面的多样性,这些因素共同造就了操作任务的复杂性。董豪老师课题组致力于统一的物体表征操作研究,以实现具有可解释性和泛化能力的物体操作模型。通过将跨物体和任务的可迁移表征(Affordance)融入到一个统一的学习体系中,可同时支持多种复杂操作任务,如:
铰接物体操作(如开关门、抽屉等):
柔性物体操作(如叠衣服、整理布料等):
真实杂乱场景操作(如堆叠刚体、堆叠柔体等):
本文介绍了北京大学董豪老师课题组在统一的物体表征操作研究方向上的又一力作:GarmentPile: Point-Level Visual Affordance Guided Retrieval and Adaptation for Cluttered Garments Manipulation。该论文已被人工智能领域顶级会议 CVPR 2025 接收,论文共同第一作者为吴睿海、诸子瑜和王昱然。
本文研究了基于点级功能可供性(Point-level Affordance)的堆叠衣物操作任务,旨在使机器人能够针对不同堆叠状态下的衣服泛化并高效完成调整和操作。为此,作者开创性搭建了三种堆叠衣物交互场景(洗衣机、脏衣篓、沙发),并引入密集视觉表征(Dense Visual Representation)指导衣服抓取,同时作者提出了一种针对堆叠衣物的调整模块(Adaptation Module),该模块能够分析并调整杂乱衣物的空间结构,使其重新组织为更利于后续抓取、折叠或分类的状态。该方法不仅提升了机器人对复杂堆叠衣物场景的适应能力,还提高了在多变环境下的操作稳定性和任务成功率。
论文链接:
https://arxiv.org/pdf/2503.09243
项目主页:
https://garmentpile.github.io/
文章代码:
https://github.com/AlwaySleepy/Garment-Pile
01
背 景
衣物是一种常见的可变形物体,与刚性物体相比,它们具有高维状态空间、复杂的运动学和动力学特性。然而,大多数研究主要关注单件衣物的操作,多件衣服杂乱堆叠交互的场景显有研究涉及,而这类场景在现实生活中尤为广泛,例如整理床上的衣物或从洗衣机中取出衣物。相比于单件衣物或杂乱刚性物体的操作,处理堆叠衣物更加困难,因为衣物之间存在复杂的状态变化和依赖关系。此外,堆叠衣物通常存在多个潜在抓取目标,这对策略的表征能力提出了更高的要求。

在堆叠衣物的场景下,大模型在选择合适的抓取点时表现不佳。我们首先尝试使用“Segmentation Anything”模型对衣物进行分割,并通过比较分割区域的中心点来选取最优的操作点。然而,正如下图“SEGMENT RESULT”所示,该方法无法完美地分割堆叠的衣物,导致无法获得合理的抓取点。


此外,我们尝试使用 ChatGPT-4o 结合 RGB 和深度图像推理衣物之间的潜在空间结构关系。但实验结果远低于预期。ChatGPT-4o 似乎只是随机选择了一个抓取点,并且在大多数情况下,这个点都是不合理的,无法有效指导衣物操作。

因此,我们提出了 point-level affordance 的表征方式来建模这类问题,并进一步提出了 Adaptation module 使得机器人能够更好地应对极其复杂的义务堆叠状态。
专有名词解释
Affordance,译作“功能可供性”,在机器人领域,affordance通常指的是物体或环境中可以被机器人“感知”并利用来完成任务的特性,基于 affordance 操作意味着机器人能够理解并利用物体的特性去完成任务。例如,机器人能够判断某个物体是否能被抓住、推动、拉动或放置。通过这种理解,机器人可以在没有详细编程的情况下,更加智能地与环境互动,执行任务。
02
方 法
本文研究了一类新颖的任务——堆叠衣物的操作,并提出了相应的策略,在效果和效率上都明显优于直接应用大模型。核心创新点如下:
1. 点级功能可供性(point-level affordance)的引入
给定一个 k 件衣物堆叠的场景,我们的目标是一件一件地将 k 件衣物依次取出(retrieval),同时避免如下两种失败情况:衣物拖到地上、衣物之间相互缠绕。我们定义点级功能可供性(point-level affordance)为衣物上每一个点的可操作度,范围在0~1之间。我们利用 PointNet++来获取 affordance,其中 PointNet++自身的性质使得我们的 affordance 可以注意到衣物的自身结构以及相互的依赖关系。我们首先收集了大量 offline data 来训练针对抓取操作的affordance(retrieval affordance)。
2. 针对复杂场景进行调整
对于复杂场景,affordance 可能会显示没有较好的抓取点,此时我们引入了调整模块(Adaptation Module)来对衣物的状态进行调整。调整的行为建模成一系列 pick-place 操作,我们将一直调整直至 affordance 达到较好的状态。在 pick module 和 place module 的训练中,我们首先利用 retrieval affordance 来监督 place affordance 的训练,其次利用训练好的 place affordance 来监督 pick affordance 的训练。
3. 适用于多种场景、多类衣物
在模拟堆叠衣物场景时,由于衣物的高度可变形性,每一次的堆叠状态都是全新的状态。因此,利用这些数据训练出来的模型对于各类衣物都有一定的可泛化性,同时可以适用于各种场景。
各模块之间的推理流程以及每个模块各自的内部细节参见以下两图。


03
实验验证
我们在仿真环境 Isaac Sim 上设计并搭建了三个具有代表性的堆叠衣物的场景:
从洗衣机里
取出衣物
在沙发上处理
堆叠衣物
从脏衣篓里
取出衣物



在这三个任务上进行实验用于评估本文提出的方法,并可视化相关的 affordance,实验结果表明,我们的方法能够学习到堆叠衣物操作所需要的特性:具有多模态的输出、可以注意到衣服自身结构、可以注意到衣物相互之间的堆叠关系。无论是在效率上还是在效果上,我们的策略都远远超过了基于大模型的方法。

同时,我们也在真实世界中测试了该方法的能力,实验表明,我们的方法能够顺利地部署到真实世界中,不会过度受到 sim2real gap 的影响。

以下展示在仿真环境和真实世界中采用我们的方法进行堆叠衣物调整与抓取的全过程视频,以进一步证明我们的方法在面对各种堆叠衣服场景时所表现出的卓越性能。

仿真环境下洗衣机场景的全过程

真实世界中洗衣机场景的全过程

真实世界中沙发场景的全过程

真实世界中脏衣篓场景的全过程
04
总 结
本文针对堆叠衣物的操作任务,提供了三种堆叠衣物交互场景,引入了一种基于点级功能可供行的方法,并且提出调整模块来应对堆叠状态过于复杂的情况。我们的方法在各类场景上都显著优于基于大模型的方法,并且对于各类衣物都有一定的泛化性。
PKU-Agibot Lab
PKU-Agibot Lab 由北京大学前沿计算研究中心董豪助理教授领导,该科研团队专注于机器人视觉,物体操作,语义导航和具身自主决策等领域的前沿技术,致力于为工业应用和家用场景创建具有成本效益的人形机器人。
实验室 PI 简介:董豪 助理教授
董豪课题组相关新闻:#PKU-Agibot Lab

扫码浏览实验室主页
https://zsdonghao.github.io/

图文 | 王昱然
PKU-Agibot Lab
PKU-Agibot Lab 近期科研动态


— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

点击“阅读原文”转论文链接
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢