DUSt3R: Geometric 3D Vision Made Easy

简介

多视角立体重建(MVS)需要首先估计相机参数，例如内参和外参。这通常是繁琐和麻烦的，但是对于在三维空间中三角化对应像素来说是必要的，这是所有最佳表现的MVS算法的核心。在这项工作中，我们采取了相反的立场，引入了DUSt3R，这是一种完全新颖的范式，用于任意图像集的密集和不受限制的立体3D重建，即在没有关于相机校准或视点姿态的先验信息的情况下运行。我们将成对重建问题作为点图的回归，放宽了通常的投影相机模型的硬约束。我们展示了这种表述平滑地统一了单目和双目重建情况。在提供了两个以上图像的情况下，我们进一步提出了一种简单而有效的全局对齐策略，将所有成对的点图表达为一个公共参考帧。我们的网络架构基于标准Transformer编码器和解码器，使我们能够利用强大的预训练模型。我们的表述直接提供了场景的三维模型以及深度信息，但有趣的是，我们可以无缝地从中恢复像素匹配、相对和绝对相机。在所有这些任务上的详尽实验展示了所提出的DUSt3R可以统一各种3D视觉任务，并在单目/多视角深度估计以及相对姿态估计方面设置新的SoTA。总之，DUSt3R使许多几何3D视觉任务变得容易。
图表
解决问题

本论文旨在解决在野外进行多视角立体重建需要先估计相机参数的问题，提出了一种不需要先验信息的新型范式DUSt3R进行稠密和无约束的立体三维重建。
关键思路

将成对重建问题视为点图的回归问题，放宽了传统投影相机模型的硬性约束，使得单目和双目重建情况得以平滑统一。网络架构基于Transformer编码器和解码器，可以利用强大的预训练模型。
其它亮点

DUSt3R提供了场景的三维模型和深度信息，并可以无缝地恢复像素匹配、相对和绝对相机。论文在所有这些任务上进行了详尽的实验，展示了DUSt3R可以统一各种三维视觉任务，并在单目/多视角深度估计以及相对姿态估计方面取得了新的SOTA。值得关注的是，DUSt3R可以使许多几何三维视觉任务变得容易。
相关研究

最近在这个领域中，还有一些相关的研究，如：《DeepMVS: Learning Multi-view Stereopsis》、《Patchmatch Stereo: Stereo Matching with Slanted Support Windows》、《Unsupervised Learning of Depth and Ego-Motion from Video》等。

DUSt3R: Geometric 3D Vision Made Easy

评论