- 简介将图像反向工程成3D计算机辅助设计(CAD)模型是许多下游应用程序的重要任务,包括交互式编辑、制造、建筑、机器人等。任务的难度在于CAD输出和图像输入之间的巨大表现差异。CAD模型是精确的、程序化的构造,涉及将离散命令结构与连续属性相结合的顺序操作,这使得学习和优化变得具有挑战性。同时,输入图像引入了固有的挑战,如光度变异和传感器噪声,使得反向工程过程更加复杂。在这项工作中,我们引入了一种新的方法,将任务有条件地分解为两个子问题。首先,我们利用大型基础模型,特别是GPT-4V,预测具有语义信息的全局离散基础结构。其次,我们提出了TrAssembler,它在具有语义的离散结构的条件下预测连续属性值。为了支持TrAssembler的训练,我们进一步构建了一个来自ShapeNet的常见对象的注释CAD数据集。将所有这些结合起来,我们的方法和数据展示了朝着在野外CAD化图像的重要第一步。我们的项目页面:https://anonymous123342.github.io/。
-
- 图表
- 解决问题从图像中反向工程三维计算机辅助设计(CAD)模型是一个重要的任务,本文试图解决这个问题。
- 关键思路本文提出了一种新的方法,将任务条件分解为两个子问题,并使用大型基础模型和TrAssembler解决这两个子问题。
- 其它亮点本文的亮点包括使用GPT-4V预测全局离散基础结构,使用TrAssembler预测连续属性值,构建了一个注释的CAD数据集,并在ShapeNet上进行实验。
- 最近在这个领域中,还有一些相关的研究,如《Deep Learning for Computer Vision: A Brief Review》、《Deep Learning for Computer Vision: A Comprehensive Review》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流