CVPR 2025 | Garment Pile：基于Affordance的堆叠衣物调整与抓取

关键词：布料操作; 堆叠物体; 功能可供性

导读

泛化物体操作是具身智能中的核心挑战。物体存在类别、几何形状以及材质等方面的多样性，这些因素共同造就了操作任务的复杂性。董豪老师课题组致力于统一的物体表征操作研究，以实现具有可解释性和泛化能力的物体操作模型。通过将跨物体和任务的可迁移表征（Affordance）融入到一个统一的学习体系中，可同时支持多种复杂操作任务，如：

铰接物体操作（如开关门、抽屉等）：

柔性物体操作（如叠衣服、整理布料等）：

真实杂乱场景操作（如堆叠刚体、堆叠柔体等）：

RSS 2024 | 复杂堆叠场景中的安全高效抓取

本文介绍了北京大学董豪老师课题组在统一的物体表征操作研究方向上的又一力作：GarmentPile: Point-Level Visual Affordance Guided Retrieval and Adaptation for Cluttered Garments Manipulation。该论文已被人工智能领域顶级会议 CVPR 2025 接收，论文共同第一作者为吴睿海、诸子瑜和王昱然。

本文研究了基于点级功能可供性（Point-level Affordance）的堆叠衣物操作任务，旨在使机器人能够针对不同堆叠状态下的衣服泛化并高效完成调整和操作。为此，作者开创性搭建了三种堆叠衣物交互场景（洗衣机、脏衣篓、沙发），并引入密集视觉表征（Dense Visual Representation）指导衣服抓取，同时作者提出了一种针对堆叠衣物的调整模块（Adaptation Module），该模块能够分析并调整杂乱衣物的空间结构，使其重新组织为更利于后续抓取、折叠或分类的状态。该方法不仅提升了机器人对复杂堆叠衣物场景的适应能力，还提高了在多变环境下的操作稳定性和任务成功率。

论文链接：

https://arxiv.org/pdf/2503.09243

项目主页：

https://garmentpile.github.io/

文章代码：

https://github.com/AlwaySleepy/Garment-Pile

介绍视频：

背景

衣物是一种常见的可变形物体，与刚性物体相比，它们具有高维状态空间、复杂的运动学和动力学特性。然而，大多数研究主要关注单件衣物的操作，多件衣服杂乱堆叠交互的场景显有研究涉及，而这类场景在现实生活中尤为广泛，例如整理床上的衣物或从洗衣机中取出衣物。相比于单件衣物或杂乱刚性物体的操作，处理堆叠衣物更加困难，因为衣物之间存在复杂的状态变化和依赖关系。此外，堆叠衣物通常存在多个潜在抓取目标，这对策略的表征能力提出了更高的要求。

在堆叠衣物的场景下，大模型在选择合适的抓取点时表现不佳。我们首先尝试使用“Segmentation Anything”模型对衣物进行分割，并通过比较分割区域的中心点来选取最优的操作点。然而，正如下图“SEGMENT RESULT”所示，该方法无法完美地分割堆叠的衣物，导致无法获得合理的抓取点。

此外，我们尝试使用 ChatGPT-4o 结合 RGB 和深度图像推理衣物之间的潜在空间结构关系。但实验结果远低于预期。ChatGPT-4o 似乎只是随机选择了一个抓取点，并且在大多数情况下，这个点都是不合理的，无法有效指导衣物操作。

因此，我们提出了 point-level affordance 的表征方式来建模这类问题，并进一步提出了 Adaptation module 使得机器人能够更好地应对极其复杂的义务堆叠状态。

专有名词解释

Affordance，译作“功能可供性”，在机器人领域，affordance通常指的是物体或环境中可以被机器人“感知”并利用来完成任务的特性，基于 affordance 操作意味着机器人能够理解并利用物体的特性去完成任务。例如，机器人能够判断某个物体是否能被抓住、推动、拉动或放置。通过这种理解，机器人可以在没有详细编程的情况下，更加智能地与环境互动，执行任务。

方法

本文研究了一类新颖的任务——堆叠衣物的操作，并提出了相应的策略，在效果和效率上都明显优于直接应用大模型。核心创新点如下：

1. 点级功能可供性（point-level affordance）的引入

给定一个 k 件衣物堆叠的场景，我们的目标是一件一件地将 k 件衣物依次取出（retrieval），同时避免如下两种失败情况：衣物拖到地上、衣物之间相互缠绕。我们定义点级功能可供性（point-level affordance）为衣物上每一个点的可操作度，范围在0~1之间。我们利用 PointNet++来获取 affordance，其中 PointNet++自身的性质使得我们的 affordance 可以注意到衣物的自身结构以及相互的依赖关系。我们首先收集了大量 offline data 来训练针对抓取操作的affordance（retrieval affordance）。

2. 针对复杂场景进行调整

对于复杂场景，affordance 可能会显示没有较好的抓取点，此时我们引入了调整模块（Adaptation Module）来对衣物的状态进行调整。调整的行为建模成一系列 pick-place 操作，我们将一直调整直至 affordance 达到较好的状态。在 pick module 和 place module 的训练中，我们首先利用 retrieval affordance 来监督 place affordance 的训练，其次利用训练好的 place affordance 来监督 pick affordance 的训练。

3. 适用于多种场景、多类衣物

在模拟堆叠衣物场景时，由于衣物的高度可变形性，每一次的堆叠状态都是全新的状态。因此，利用这些数据训练出来的模型对于各类衣物都有一定的可泛化性，同时可以适用于各种场景。

各模块之间的推理流程以及每个模块各自的内部细节参见以下两图。