PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point Tracking
解决问题:本篇论文旨在提出一个大规模的合成数据集PointOdyssey,以用于训练和评估长期精细跟踪算法,并在自然运动的长视频上突破当前技术水平。
关键思路:为了实现自然主义,论文使用真实世界的动作捕捉数据来为可变形角色添加动画,构建3D场景以匹配动作捕捉环境,并使用通过结构从运动在真实视频上挖掘的轨迹来渲染摄像机视角。通过随机化角色外观、运动轮廓、材料、照明、3D资产和大气效应,创造组合多样性。该数据集包括104个视频,平均每个视频2000帧,比之前的工作具有更多的对应注释。论文表明,现有的方法可以在该数据集上从头开始训练,并优于已发表的变体。最后,论文介绍了对PIPs点跟踪方法的修改,大大扩展了其时间感受野,提高了其在PointOdyssey以及两个真实世界基准测试上的性能。
其他亮点:该数据集和代码公开可用,值得深入研究。
关于作者:Yang Zheng、Adam W. Harley、Bokui Shen、Gordon Wetzstein和Leonidas J. Guibas是本篇论文的主要作者。他们分别来自斯坦福大学、亚利桑那州立大学和斯坦福大学计算机科学系。其中,Guibas是计算机图形学和计算机科学领域的知名学者,曾发表过很多有影响力的论文,如“Shape Google: Geometric Words and Expressions for Invariant Shape Retrieval”和“3D Shape Segmentation with Projective Convolutional Networks”。
相关研究:近期的相关研究包括:“Tracking Emerges by Colorizing Videos”(Carl Vondrick等,MIT计算机科学和人工智能实验室)、“Unsupervised Learning of Visual Features by Contrasting Cluster Assignments”(Mathilde Caron等,Facebook AI Research)和“Learning to Track Objects with Relational Inference”(Xin Wang等,斯坦福大学)。
论文摘要:我们介绍了PointOdyssey,一个大规模的合成数据集和数据生成框架,用于训练和评估长期细粒度跟踪算法。我们的目标是通过强调自然运动的长视频来推动技术发展。为了达到自然性的目标,我们使用真实的运动捕捉数据来动画化可变形的角色,构建3D场景以匹配运动捕捉环境,并使用通过真实视频的结构从运动挖掘的轨迹来渲染摄像机视角。我们通过随机化角色外观、运动配置文件、材料、照明、3D资产和大气效应来创建组合多样性。我们的数据集目前包括104个视频,平均每个视频2000帧,比之前的工作具有更多数量级的对应注释。我们展示了现有方法可以在我们的数据集中从头开始训练,并且优于已发表的变体。最后,我们对PIPs点跟踪方法进行了修改,大大扩大了其时间感受野,从而提高了其在PointOdyssey以及两个真实世界基准测试上的性能。我们的数据和代码公开可用于:https://pointodyssey.com。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢