ViPE: Video Pose Engine for 3D Geometric Perception

2025年08月12日
  • 简介
    准确的三维几何感知是许多空间人工智能系统的重要前提条件。尽管当前最先进的方法依赖于大规模的训练数据,但从真实世界的视频中获取一致且精确的三维标注仍然是一个关键挑战。在本研究中,我们提出了 ViPE,这是一种便捷且多功能的视频处理引擎,旨在弥合这一差距。ViPE 能够从无约束的原始视频中高效估计相机内参、相机运动以及密集的近度量深度图。它对多种场景具有鲁棒性,包括动态的自拍视频、电影镜头或车载记录仪视频,并支持多种相机模型,如针孔模型、广角镜头和 360{\deg} 全景图。我们在多个基准测试中对 ViPE 进行了评估。值得注意的是,在 TUM/KITTI 序列上,ViPE 的表现比现有的无标定姿态估计基线方法分别提升了 18% 和 50%,并且在标准输入分辨率下可在单块 GPU 上以每秒 3 至 5 帧的速度运行。我们使用 ViPE 对一个大规模视频集合进行了标注。该集合包括约 10 万个真实互联网视频、100 万个高质量人工智能生成的视频以及 2000 个全景视频,总计约 9600 万帧——所有视频均标注了精确的相机姿态和密集的深度图。我们开源了 ViPE 及其标注数据集,希望以此加速空间人工智能系统的发展。
  • 图表
  • 解决问题
    这篇论文旨在解决空间AI系统中3D几何感知依赖大量高质量3D标注数据的问题。由于从真实世界视频中获取一致且精确的3D标注仍然存在挑战,论文提出了一种高效、稳健的视频处理引擎来填补这一空白。
  • 关键思路
    论文提出ViPE(Video Processing Engine),一个可以从无约束原始视频中高效估计相机内参、相机运动和密集近度量深度图的视频处理引擎。相比现有方法,ViPE具有更强的鲁棒性,支持多种相机模型(如针孔相机、广角相机和360度全景相机),并适用于动态自拍视频、电影镜头或行车记录仪等多种场景。
  • 其它亮点
    1. ViPE在TUM/KITTI数据集上比现有无标定姿态估计方法分别提升了18%和50%的性能 2. ViPE可在单块GPU上以每秒3-5帧的速度运行,适用于标准分辨率输入 3. 作者使用ViPE构建了一个大规模视频标注数据集,包含约10万真实世界互联网视频、100万高质量AI生成视频和2千个全景视频,总计约9600万帧 4. 所有数据均标注了准确的相机姿态和密集深度图 5. ViPE及其标注数据集已开源,有望加速空间AI系统的发展
  • 相关研究
    1. Monodepth2: Learning the Camera Pose with Unsupervised Monocular Depth Estimation 2. ORB-SLAM3: A Versatile and Accurate Stereo SLAM System 3. NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis 4. COLMAP: A General-S Purpose Structure-from-Motion and Dense Multi-View Stereo Library 5. DROID-SLAM: Deep Learning based Robust Incremental Odometry and Dense Mapping
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问