SpatialTracker: Tracking Any 2D Pixels in 3D Space

2024年04月05日
  • 简介
    在视频中恢复密集且长距离的像素运动是一个具有挑战性的问题。其中一部分困难来自于三维到二维的投影过程,在二维运动领域中导致遮挡和不连续性。虽然二维运动可能很复杂,但我们认为潜在的三维运动通常是简单且低维的。在这项工作中,我们提出了估计三维空间中点轨迹来减轻图像投影引起的问题。我们的方法名为SpatialTracker,使用单目深度估计器将二维像素提升到三维,使用三面体表示高效地表示每帧的三维内容,并使用变换器执行迭代更新以估计三维轨迹。在三维中跟踪允许我们利用尽可能刚性(ARAP)约束,同时学习将像素聚类到不同刚性部分的刚性嵌入。广泛的评估表明,我们的方法在质量和数量上都实现了最先进的跟踪性能,特别是在具有挑战性的情况下,例如平面外旋转。
  • 图表
  • 解决问题
    论文旨在解决视频中稠密和长距离像素运动恢复的问题,通过在3D空间中估计点轨迹来缓解2D投影过程中出现的问题。
  • 关键思路
    论文提出了一种名为SpatialTracker的方法,通过使用单目深度估计器将2D像素提升到3D空间,并使用三平面表示有效地表示每个帧的3D内容,并使用变换器执行迭代更新以估计3D轨迹。在3D中跟踪允许我们利用尽可能刚性(ARAP)约束,同时学习将像素聚类到不同刚体部分的刚性嵌入。
  • 其它亮点
    论文在各种数据集上进行了广泛的评估,显示出我们的方法在质量和数量上都实现了最先进的跟踪性能,特别是在挑战性场景(如平面外旋转)中。
  • 相关研究
    最近的相关研究包括:'Monocular 3D Object Detection with Pseudo-LiDAR Point Cloud'和'Learning to Learn from Noisy Labeled Data'。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论