$π^3$: Scalable Permutation-Equivariant Visual Geometry Learning

2025年07月17日
  • 简介
    我们提出了$\pi^3$,这是一种前馈神经网络,为视觉几何重建提供了一种全新的方法,打破了传统方法对固定参考视角的依赖。之前的方法通常将重建结果锚定在一个指定的视点上,这种归纳偏置在参考视角不理想时容易导致不稳定甚至失败。相比之下,$\pi^3$采用了一种完全排列等变的架构,能够预测仿射不变的相机姿态和尺度不变的局部点图,而无需任何参考帧。这种设计使我们的模型对输入顺序具有内在的鲁棒性,并且高度可扩展。这些优势使得我们这种简单且无偏的方法在包括相机姿态估计、单目/视频深度估计以及稠密点图重建在内的多种任务上,达到了最先进的性能。代码和模型已公开提供。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决视觉几何重建中对固定参考视角的依赖问题。这种传统方法存在不稳定性,特别是在参考视角选择不佳时会出现失败。这是一个长期存在的问题,并非新问题。
  • 关键思路
    论文提出了一种名为π³的前馈神经网络,采用完全排列等变架构,预测仿射不变的相机姿态和尺度不变的局部点图,无需任何参考帧。相比传统方法,该方法摆脱了对参考视角的依赖,具有更强的鲁棒性和可扩展性。
  • 其它亮点
    1. 模型对输入顺序具有内在的鲁棒性,适用于大规模部署。 2. 在相机姿态估计、单目/视频深度估计和密集点图重建等多个任务上达到SOTA性能。 3. 实验涵盖了多个数据集,验证了方法的广泛适用性。 4. 代码和模型已开源,便于后续研究和复现。
  • 相关研究
    1. Deep Learning for Camera Pose Estimation: A Survey 2. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 3. Unsupervised Learning of Depth and Ego-Motion from Video 4. Permutation-Equivariant Neural Networks for 3D Point Cloud Analysis
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问