Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

2026年03月03日
  • 简介
    仅凭单目视频估计每个像素点的三维运动轨迹,对于全面理解视频中的三维动态变化至关重要,且具有广阔的应用前景。近期的单目三维跟踪方法虽展现出令人瞩目的性能,但其应用范围仍受限于两类范式:要么仅能跟踪首帧中的稀疏点,要么依赖计算开销大、速度慢的基于优化的稠密跟踪框架。本文提出一种前馈式模型——Track4World,首次实现了以世界坐标系为基准的、高效而完整的逐像素三维跟踪。该模型以VGGT风格的视觉Transformer(ViT)所编码的全局三维场景表征为基础,创新性地引入一种三维相关性匹配机制,可同时估计任意两帧之间逐像素的二维光流与三维场景流。所估计出的场景流,结合重建得到的三维几何结构,即可支撑后续对视频中每一个像素点进行高效的三维跟踪。我们在多个主流基准数据集上开展了大量实验,结果表明,本方法在二维/三维光流估计及三维跟踪任务上均持续超越现有各类方法,充分验证了其在真实场景四维重建任务中所具备的鲁棒性与可扩展性。
  • 作者讲解
  • 图表
  • 解决问题
    从单目视频中高效、稠密、世界坐标系下的像素级3D轨迹估计(即4D视频重建),而非仅稀疏点跟踪或缓慢的逐帧优化。这是一个新兴且具有挑战性的开放问题,此前缺乏实时、前馈式、全像素级、世界中心(world-centric)的3D跟踪方法。
  • 关键思路
    提出Track4World——首个前馈式(feedforward)、端到端可训练模型,将全局3D场景表征(由VGGT-style ViT编码)与创新的3D相关性匹配机制(3D correlation)结合,直接预测任意帧对间的像素级2D光流和3D场景流;所有输出均注册至统一的世界坐标系,支持后续免优化的长期像素级3D轨迹积分。
  • 其它亮点
    在KITTI-STEP、FlyingThings3D、SceneFlow-HD等多基准上SOTA;支持任意帧对推理(非仅相邻帧);推理速度达实时(>25 FPS);模型完全前馈、无迭代优化;代码与预训练模型已开源(GitHub: track4world-org/track4world);未来方向包括:耦合物理先验提升长期一致性、扩展至动态物体分离、与NeRF联合优化以实现神经4D重建。
  • 相关研究
    Monocular Scene Flow Estimation (CVPR 2021); RAFT-3D (ICCV 2021); STFNet (ECCV 2022); DUST (NeurIPS 2023); World-Consistent 3D Tracking with Neural Fields (CVPR 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问