$π^3$: Scalable Permutation-Equivariant Visual Geometry Learning

向作者提问

NEW

简介

我们提出了$\pi^3$，这是一种前馈神经网络，为视觉几何重建提供了一种全新的方法，打破了传统方法对固定参考视角的依赖。之前的方法通常将重建结果锚定在一个指定的视点上，这种归纳偏置在参考视角不理想时容易导致不稳定甚至失败。相比之下，$\pi^3$采用了一种完全排列等变的架构，能够预测仿射不变的相机姿态和尺度不变的局部点图，而无需任何参考帧。这种设计使我们的模型对输入顺序具有内在的鲁棒性，并且高度可扩展。这些优势使得我们这种简单且无偏的方法在包括相机姿态估计、单目/视频深度估计以及稠密点图重建在内的多种任务上，达到了最先进的性能。代码和模型已公开提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决视觉几何重建中对固定参考视角的依赖问题。这种传统方法存在不稳定性，特别是在参考视角选择不佳时会出现失败。这是一个长期存在的问题，并非新问题。
关键思路

论文提出了一种名为π³的前馈神经网络，采用完全排列等变架构，预测仿射不变的相机姿态和尺度不变的局部点图，无需任何参考帧。相比传统方法，该方法摆脱了对参考视角的依赖，具有更强的鲁棒性和可扩展性。
其它亮点

1. 模型对输入顺序具有内在的鲁棒性，适用于大规模部署。 2. 在相机姿态估计、单目/视频深度估计和密集点图重建等多个任务上达到SOTA性能。 3. 实验涵盖了多个数据集，验证了方法的广泛适用性。 4. 代码和模型已开源，便于后续研究和复现。
相关研究

1. Deep Learning for Camera Pose Estimation: A Survey 2. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 3. Unsupervised Learning of Depth and Ego-Motion from Video 4. Permutation-Equivariant Neural Networks for 3D Point Cloud Analysis

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问