- 简介我们提出了第一个大型重建模型(LRM),它可以在仅5秒内从单个输入图像预测物体的3D模型。与许多以类别为中心在小规模数据集(如ShapeNet)上训练的先前方法不同,LRM采用了高度可扩展的基于Transformer的架构,具有5亿个可学习参数,直接从输入图像预测神经辐射场(NeRF)。我们以端到端的方式在包含大约100万个对象的大规模多视角数据上训练我们的模型,包括Objaverse的合成渲染和MVImgNet的真实捕捉。这种高容量模型和大规模训练数据的组合使我们的模型具有高度通用性,并能从各种测试输入(包括野外实景捕捉和生成模型创建的图像)中产生高质量的3D重建。我们的LRM项目网页上可以找到视频演示和可交互的3D网格:https://yiconghong.me/LRM。
- 图表
- 解决问题LRM试图解决从单个输入图像预测物体的3D模型的问题,并在仅5秒内实现预测。这是否是一个新问题?
- 关键思路LRM采用高度可扩展的基于transformer的架构,直接从输入图像预测神经辐射场(NeRF),并在大规模多视角数据上进行端到端训练,包括Objaverse的合成渲染和MVImgNet的真实捕获,从而使模型高度通用和能够从各种测试输入中生成高质量的3D重建。
- 其它亮点LRM采用了高容量模型和大规模训练数据,能够从各种测试输入中生成高质量的3D重建,包括真实世界的野外捕获和由生成模型创建的图像。论文提供了视频演示和可交互的3D网格,并在其项目网页上公开了代码。值得进一步研究的工作包括如何进一步提高模型的效率和准确性。
- 在这个领域中,最近的相关研究包括:《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》、《PixelNeRF: Neural Radiance Fields from One or Few Images Using Pixelwise Feature Modulation》等。
沙发等你来抢
去评论
评论
沙发等你来抢