- 简介3D资产生成引起了大量关注,这得益于最近文本引导的2D内容创作的成功。现有的文本到3D方法使用预训练的文本到图像扩散模型在优化问题中或在合成数据上进行微调,这通常会导致没有背景的非照片般逼真的3D物体。在本文中,我们提出了一种方法,利用预训练的文本到图像模型作为先验,并学习从真实世界数据中在单个去噪过程中生成多视图图像。具体来说,我们提出将3D体绘制和跨帧注意力层集成到现有文本到图像模型的每个块中。此外,我们设计了自回归生成,可以在任何视角下呈现更具3D一致性的图像。我们在真实世界的对象数据集上训练了我们的模型,并展示了它在真实环境中生成具有各种高质量形状和纹理的实例的能力。与现有方法相比,我们的方法生成的结果一致,并具有良好的视觉质量(FID降低了30%,KID降低了37%)。
-
- 图表
- 解决问题本文旨在解决文本到三维模型生成中存在的问题,即生成的三维模型质量不高、缺乏背景等。同时,也试图验证使用预训练的文本到图像模型作为先验知识,并从真实世界数据中学习生成多视角图像的可行性。
- 关键思路本文提出了一种方法,将三维体渲染和交叉帧注意力层整合到现有的文本到图像模型的每个块中,从而生成多视角图像。此外,还设计了一种自回归生成方法,以在任何视角下呈现更具一致性的图像。
- 其它亮点本文的实验使用真实世界数据集,展示了该方法在生成高质量、具有多样形状和纹理的物体实例及其背景方面的能力。与现有方法相比,本文方法生成的结果更加一致,并具有更好的视觉质量。本文的代码已经开源。
- 最近,也有一些相关研究,如《Learning to Generate 3D Objects with Fewer Labeled Images》、《Neural 3D Mesh Renderer》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流