- 简介我们介绍了一种新颖的方法——MultiDiff,用于从单个RGB图像一致地合成场景的新视角。从单个参考图像合成新视角的任务本质上是高度不适定的,因为存在多个未观察区域的合理解释。为了解决这个问题,我们采用了形式上的单目深度预测和视频扩散模型等强先验。单目深度使我们能够将模型的条件设置为目标视角的变形参考图像,从而提高几何稳定性。视频扩散先验为3D场景提供了强有力的代理,使模型能够学习生成图像之间的连续且像素精确的对应关系。与依赖于自回归图像生成的方法相比,后者容易出现漂移和误差积累,MultiDiff同时合成一系列帧,可以产生高质量和多视角一致的结果,即使是具有大相机移动的长期场景生成,同时将推理时间降低一个数量级。为了进一步提高一致性和图像质量,我们引入了一种新颖的结构噪声分布。我们的实验结果表明,MultiDiff在具有挑战性的真实世界数据集RealEstate10K和ScanNet上优于最先进的方法。最后,我们的模型自然支持多视角一致的编辑,无需进一步调整。
- 图表
- 解决问题本论文解决的问题是如何从单张RGB图像中生成一致的新视角。这是一个高度不适定的问题,因为未观察到的区域存在多种可能的解释。
- 关键思路本论文的解决方案是结合单目深度预测器和视频扩散模型的强先验知识。单目深度可以使模型在目标视角上对其模型进行调整,从而增加几何稳定性。视频扩散先验提供了一个强大的3D场景代理,允许模型在生成的图像之间学习连续和像素精确的对应关系。
- 其它亮点值得关注的亮点包括使用结构化噪声分布来提高一致性和图像质量,以及支持多视角一致编辑而无需进一步调整。实验结果表明,MultiDiff在RealEstate10K和ScanNet等数据集上优于现有的先进方法。
- 最近的相关研究包括使用深度学习和GAN的单视角重建方法,如Pixel2Mesh和PIFu。
沙发等你来抢
去评论
评论
沙发等你来抢