- 简介本文提出了Flash3D方法,它是一种从单幅图像进行场景重建和新视角合成的方法,具有很强的泛化能力和高效性。为了实现泛化能力,我们从单目深度估计的“基础”模型开始,并将其扩展为完整的三维形状和外观重构器。为了提高效率,我们基于前馈高斯光斑进行扩展。具体而言,我们在预测的深度处预测第一层三维高斯光斑,然后添加在空间中偏移的额外层高斯光斑,使模型能够在遮挡和截断后完成重建。Flash3D非常高效,可以在一天内在单个GPU上进行训练,因此大多数研究人员都可以使用。它在RealEstate10k数据集上训练和测试时实现了最先进的结果。当转移到像NYU这样的未见过的数据集时,它的性能甚至超过了竞争对手。更令人印象深刻的是,当转移到KITTI时,Flash3D的PSNR表现比专门针对该数据集进行训练的方法更好。在某些情况下,它甚至胜过使用多视图作为输入的最新方法。代码、模型、演示和更多结果可在https://www.robots.ox.ac.uk/~vgg/research/flash3d/上获得。
- 图表
- 解决问题Flash3D论文提出了一种从单张图像中进行场景重建和新视角合成的方法,旨在解决单目深度估计的不足之处。
- 关键思路Flash3D方法基于前馈高斯喷洒,将单目深度估计模型扩展为完整的3D形状和外观重建器,通过预测一层层偏移的高斯函数来完成场景重建,从而实现了高效且高泛化性能的场景重建和新视角合成。
- 其它亮点该方法在RealEstate10k数据集上训练和测试时达到了最先进的结果,在未见过的数据集上(如NYU和KITTI)也表现出色,甚至在某些情况下优于使用多视角输入的最新方法。该论文提供了代码、模型、演示和更多结果。
- 与Flash3D相关的研究包括:DeepStereo、DispNet、GQN、NeRF等。
沙发等你来抢
去评论
评论
沙发等你来抢