- 简介图像引导的物体组装是计算机视觉中一个新兴的研究课题。本文提出了一个新颖的任务:将结构化的三维模型的多视图图像(例如,从三维对象库中选择的建筑块构建的模型)翻译成机器人手臂可执行的详细组装指令序列。针对要复制的目标三维模型的多视图图像,为了完成这项任务,该模型必须解决几个子任务,包括识别用于构建三维模型的单个组件、估计每个组件的几何姿态以及推断遵循物理规则的可行组装顺序。准确建立多视图图像和三维物体之间的2D-3D对应关系是技术上的挑战。为了解决这个问题,我们提出了一个端到端的模型,称为神经组装器。该模型学习了一个对象图,其中每个顶点表示来自图像中识别出的组件,而边指定了三维模型的拓扑结构,从而实现了组装计划的推导。我们为这个任务建立了基准,并对神经组装器和替代方案进行了全面的实证评估。我们的实验清楚地证明了神经组装器的优越性。
-
- 图表
- 解决问题该论文旨在解决一个新问题:如何将多视角图像转换为可执行的装配指令序列,以实现物体组装?
- 关键思路论文提出了一种名为Neural Assembler的端到端模型,用于将多视角图像转换为装配指令序列。该模型能够识别构成3D模型的组件、估计每个组件的几何姿态,并推导出符合物理规则的可行装配顺序。
- 其它亮点论文建立了此任务的基准,并对Neural Assembler和其他解决方案进行了全面的实证评估。实验结果表明,Neural Assembler具有优越性能。论文还开源了数据集和代码,为该领域的研究提供了有价值的资源。
- 该领域的相关研究包括基于深度学习的3D物体识别和姿态估计、基于图形模型的物体组装等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流