AWOL: Analysis WithOut synthesis using Language

2024年04月03日
  • 简介
    许多经典的参数化三维形状模型已经存在,但使用这些模型创建新形状需要专家对其参数的专业知识。例如,想象一下使用程序化图形创建特定类型的树或从统计形状模型中创建新的动物。我们的关键想法是利用语言来控制这些现有模型以生成新形状。这涉及学习视觉语言模型的潜在空间和三维模型的参数空间之间的映射,我们使用一小组形状和文本对来实现这一点。我们的假设是,从语言到参数的映射使我们能够为在训练期间从未见过的对象生成参数。如果语言和参数之间的映射足够平稳,则语言中的插值或概括应适当地转换为新的三维形状。我们使用两种非常不同类型的参数化形状模型(四足动物和乔木)来测试我们的方法。我们使用学习的统计形状模型来生成四足动物,并展示我们可以使用文本来生成在训练期间不存在的新动物。特别地,我们展示了三维狗的最先进的形状估计。这项工作还构成了生成三维树的第一个语言驱动方法。最后,将图像嵌入CLIP潜在空间使我们能够直接从图像中生成动物和树。
  • 图表
  • 解决问题
    论文的问题是如何使用语言控制现有的参数化3D模型以生成新的形状,以及如何将语言与参数空间建立映射,使其能够生成未在训练中出现的对象。
  • 关键思路
    论文的关键思路是使用语言驱动现有的参数化3D模型生成新的形状,通过学习视觉语言模型的潜在空间和3D模型的参数空间之间的映射,以及使用少量的形状和文本对来进行训练。通过将图像嵌入CLIP潜在空间,还可以直接从图像中生成动物和树。
  • 其它亮点
    论文使用了两种非常不同的参数化形状模型(四足动物和树木)进行测试,并展示了可以使用文本生成新的动物和树木,而这些对象在训练期间从未出现过。此外,该论文还展示了生成三维狗的最先进形状估计。实验结果表明,该方法在生成新形状方面具有很大的潜力。论文还提供了开源代码和数据集,以及值得继续研究的方向。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Neural 3D Mesh Renderer》、《Learning to Generate 3D Meshes with Neural Networks》和《Learning to Infer Implicit Surfaces without 3D Supervision》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论