- 简介文本到三维生成已经引起了计算机视觉领域的广泛关注。现有方法主要是针对每个文本提示从头开始优化神经场,依赖于繁重和重复的训练成本,这阻碍了它们的实际部署。在本文中,我们提出了一种新的快速文本到三维生成框架,称为Instant3D。一旦训练完成,Instant3D能够在不到一秒钟的时间内使用前馈网络的单次运行为看不见的文本提示创建一个3D对象。我们通过设计一个新的网络,直接从文本提示构建3D三面板,实现了这个显着的速度。我们Instant3D的核心创新在于探索有效地将文本条件注入网络的策略。特别地,我们提出了结合三个关键机制的方法:交叉注意、风格注入和令牌到平面转换,这些机制共同确保输出与输入文本的精确对齐。此外,我们提出了一个简单而有效的激活函数——缩放Sigmoid,以替代原始Sigmoid函数,这使训练收敛速度提高了十倍以上。最后,为了解决三维生成中的Janus(多头)问题,我们提出了一种自适应的Perp-Neg算法,可以根据训练过程中Janus问题的严重程度动态调整其概念否定比例,有效减少多头效应。在广泛的基准数据集上进行的大量实验表明,所提出的算法在定性和定量方面都表现优于现有最先进方法,同时实现了显著的效率提高。代码、数据和模型可在https://github.com/ming1993li/Instant3DCodes上获得。
- 解决问题论文旨在解决快速生成3D模型的问题,通过提出Instant3D框架,实现在不到1秒的时间内生成未见过的文本提示的3D对象。
- 关键思路Instant3D框架通过结合交叉注意力、风格注入和令牌到平面转换等关键机制,直接从文本提示构建3D三面板,实现快速生成3D模型。
- 其它亮点论文提出了一个简单而有效的缩放Sigmoid激活函数,可以加快训练收敛速度;提出了自适应Perp-Neg算法,可以动态调整概念否定比例,有效减少多头效应;实验结果表明,Instant3D在速度和质量方面都优于现有方法。
- 最近的相关研究包括:SPADE、SEAN、GLAMOR、Text2Shape等。
沙发等你来抢
去评论
评论
沙发等你来抢