- 简介我们提出了SpatialTrackerV2,这是一种用于单目视频的前馈式三维点跟踪方法。与以往基于现成组件构建的模块化三维跟踪流程不同,我们的方法将点跟踪、单目深度估计和相机姿态估计之间的内在联系统一起来,打造出了一个性能优异且具备前馈特性的三维点追踪器。该方法将世界空间中的三维运动分解为场景几何结构、相机自运动以及逐像素的物体运动,并采用了完全可微分且端到端的架构,使得模型能够在多种数据集上进行可扩展的训练,包括合成序列、带姿态标注的RGB-D视频以及未标注的真实场景视频。通过在这些异构数据上联合学习几何信息与运动信息,SpatialTrackerV2的性能超越了现有的三维跟踪方法30%,同时在精度上达到了领先的动态三维重建方法的水平,但运行速度却快了50倍。
- 图表
- 解决问题论文试图解决单目视频中的3D点跟踪问题,这是一个在计算机视觉领域长期存在的挑战。现有方法通常依赖模块化的流程和现成组件,导致性能受限且效率低下。该问题虽然不是新问题,但论文提出了一种新的解决方案。
- 关键思路SpatialTrackerV2的核心思想是将点跟踪、单目深度估计和相机姿态估计统一到一个端到端的前馈网络中。通过将世界空间中的3D运动分解为场景几何、相机自我运动和像素级物体运动,并以完全可微的方式建模,实现高效的联合学习。
- 其它亮点1. 模型能够在合成数据、带姿态的RGB-D视频以及无标签的真实场景视频上进行大规模训练。 2. 在3D点跟踪任务上比现有方法提升约30%,同时运行速度比主流动态3D重建方法快50倍。 3. 支持异构数据联合训练,增强了模型泛化能力。 4. 实验设计覆盖多种数据类型,验证了模型的鲁棒性和适应性。 5. 未来研究方向包括扩展到更复杂的动态场景理解和结合更多传感器输入进行多模态跟踪。
- 1. DeepSFM: Structure from Motion via Deep Learning 2. Monodepth2: Geometrically Supervised Monocular Depth Prediction 3. RAFT: Recurrent All-Pairs Field Transforms for Optical Flow 4. SceneFlowFields: Learning Multi-Frame Scene Flows with Neural Fields 5. BundleTrack: Learning to Track 3D Points in Dynamic Scenes
沙发等你来抢
去评论
评论
沙发等你来抢