Neural Assembler: Learning to Generate Fine-Grained Robotic Assembly Instructions from Multi-View Images

简介

图像引导的物体组装是计算机视觉中一个新兴的研究课题。本文提出了一个新颖的任务：将结构化的三维模型的多视图图像（例如，从三维对象库中选择的建筑块构建的模型）翻译成机器人手臂可执行的详细组装指令序列。针对要复制的目标三维模型的多视图图像，为了完成这项任务，该模型必须解决几个子任务，包括识别用于构建三维模型的单个组件、估计每个组件的几何姿态以及推断遵循物理规则的可行组装顺序。准确建立多视图图像和三维物体之间的2D-3D对应关系是技术上的挑战。为了解决这个问题，我们提出了一个端到端的模型，称为神经组装器。该模型学习了一个对象图，其中每个顶点表示来自图像中识别出的组件，而边指定了三维模型的拓扑结构，从而实现了组装计划的推导。我们为这个任务建立了基准，并对神经组装器和替代方案进行了全面的实证评估。我们的实验清楚地证明了神经组装器的优越性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决一个新问题：如何将多视角图像转换为可执行的装配指令序列，以实现物体组装？
关键思路

论文提出了一种名为Neural Assembler的端到端模型，用于将多视角图像转换为装配指令序列。该模型能够识别构成3D模型的组件、估计每个组件的几何姿态，并推导出符合物理规则的可行装配顺序。
其它亮点

论文建立了此任务的基准，并对Neural Assembler和其他解决方案进行了全面的实证评估。实验结果表明，Neural Assembler具有优越性能。论文还开源了数据集和代码，为该领域的研究提供了有价值的资源。
相关研究

该领域的相关研究包括基于深度学习的3D物体识别和姿态估计、基于图形模型的物体组装等。

Neural Assembler: Learning to Generate Fine-Grained Robotic Assembly Instructions from Multi-View Images

提问交流

提问交流