- 简介文本到三维生成旨在从文本提示中合成生动的三维对象,已经引起了计算机视觉界的广泛关注。虽然一些现有的工作在这个任务上取得了令人印象深刻的成果,但它们主要依赖于耗时的优化范式。具体而言,这些方法为每个文本提示从头开始优化神经场,生成一个对象需要大约一小时或更长时间。这种繁重和重复的训练成本阻碍了它们的实际部署。在本文中,我们提出了一种新的快速文本到三维生成框架,名为Instant3D。一旦训练完成,Instant3D能够在不到一秒钟的时间内,通过一次前馈网络运行为一个未见过的文本提示创建一个三维对象。我们通过设计一个新的网络,直接从文本提示构建一个三维三面板来实现这个显著的速度。我们Instant3D的核心创新在于探索有效地将文本条件注入网络的策略。此外,我们提出了一个简单而有效的激活函数,称为缩放Sigmoid,以替换原始的Sigmoid函数,这使得训练收敛速度提高了十倍以上。最后,为了解决三维生成中的Janus(多头)问题,我们提出了一种自适应的Perp-Neg算法,可以根据训练过程中Janus问题的严重程度动态调整其概念否定比例,有效减少多头效应。广泛的基准数据集实验表明,所提出的算法在质量和效率上都优于现有方法,并取得了显著的效果。项目页面位于https://ming1993li.github.io/Instant3DProj。
- 图表
- 解决问题本论文试图解决文本到3D生成的时间成本高的问题,提出了一种快速的文本到3D生成框架Instant3D。
- 关键思路论文的关键思路是通过设计一种新的神经网络,直接从文本生成3D三面图,并探索有效地将文本条件注入网络的策略。同时,使用了一种新的激活函数scaled-sigmoid,以及一个自适应的Perp-Neg算法来解决3D生成中的多头问题。
- 其它亮点论文提出的Instant3D框架可以在不到1秒钟的时间内从未见过的文本生成3D对象,相比现有的方法大大提高了效率。实验结果表明,Instant3D在多个基准数据集上表现出色,同时开源了代码。论文还提出了一些值得深入研究的问题,如如何进一步提高生成的准确性。
- 最近的相关研究包括:Neural 3D Mesh Renderer、Pixel2Mesh、3D-GAN等。
沙发等你来抢
去评论
评论
沙发等你来抢