Neural Assembler: Learning to Generate Fine-Grained Robotic Assembly Instructions from Multi-View Images

2024年04月25日
  • 简介
    图像引导的物体组装是计算机视觉中一个新兴的研究课题。本文提出了一个新颖的任务:将结构化的三维模型的多视图图像(例如,从三维对象库中选择的建筑块构建的模型)翻译成机器人手臂可执行的详细组装指令序列。针对要复制的目标三维模型的多视图图像,为了完成这项任务,该模型必须解决几个子任务,包括识别用于构建三维模型的单个组件、估计每个组件的几何姿态以及推断遵循物理规则的可行组装顺序。准确建立多视图图像和三维物体之间的2D-3D对应关系是技术上的挑战。为了解决这个问题,我们提出了一个端到端的模型,称为神经组装器。该模型学习了一个对象图,其中每个顶点表示来自图像中识别出的组件,而边指定了三维模型的拓扑结构,从而实现了组装计划的推导。我们为这个任务建立了基准,并对神经组装器和替代方案进行了全面的实证评估。我们的实验清楚地证明了神经组装器的优越性。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决一个新问题:如何将多视角图像转换为可执行的装配指令序列,以实现物体组装?
  • 关键思路
    论文提出了一种名为Neural Assembler的端到端模型,用于将多视角图像转换为装配指令序列。该模型能够识别构成3D模型的组件、估计每个组件的几何姿态,并推导出符合物理规则的可行装配顺序。
  • 其它亮点
    论文建立了此任务的基准,并对Neural Assembler和其他解决方案进行了全面的实证评估。实验结果表明,Neural Assembler具有优越性能。论文还开源了数据集和代码,为该领域的研究提供了有价值的资源。
  • 相关研究
    该领域的相关研究包括基于深度学习的3D物体识别和姿态估计、基于图形模型的物体组装等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问