- 简介纯自监督学习从视频中进行扩展尚未得到令人信服的证明。然而,先前的研究主要集中在语义相关任务上,例如动作分类、ImageNet分类等。在本文中,我们专注于评估自监督学习在非语义视觉任务上的表现,这些任务更注重空间(3D)和时间(+1D = 4D)方面,如相机姿态估计、点和物体跟踪以及深度估计。我们展示了通过从非常大的视频数据集中学习,使用变换器视频模型的掩码自动编码(MAE)实际上可以实现扩展,在这些4D任务上的性能随着模型规模从2000万参数一直增加到迄今为止报道的最大自监督视频模型——220亿参数时,持续改进。与许多最近的图像和视频模型进行严格的对比实验表明了扩展4D表示的好处。
- 图表
- 解决问题该论文试图验证纯自监督学习在视频数据上的可扩展性,特别是在非语义视觉任务上的表现。这是一个相对新颖的问题,因为之前的自监督学习研究主要集中在语义相关的任务上,如动作分类和ImageNet分类。
- 关键思路关键思路是通过使用大规模视频数据集和掩码自动编码(MAE)结合Transformer模型来训练自监督学习模型。研究表明,随着模型参数量从20M增加到22B,模型在4D任务(如相机姿态估计、点和对象跟踪以及深度估计)上的性能持续提升。相比当前领域的研究状况,这篇论文的创新之处在于专注于非语义视觉任务,并展示了大模型在这些任务上的优越性。
- 其它亮点论文值得关注的地方包括:1) 使用了非常大的视频数据集进行训练;2) 模型规模达到了前所未有的22B参数;3) 在多个4D任务上进行了严格的对比实验;4) 提供了与许多最近的图像和视频模型的苹果对苹果的比较。此外,论文提到可能会有开源代码发布,这将有助于后续的研究和应用。未来值得继续深入研究的方向包括进一步优化模型架构、探索更多类型的4D任务以及提高计算效率。
- 最近在这个领域中,还有其他相关的研究,例如:1)《TimeSformer: Spatiotemporal Transformers for Video Understanding》;2)《VideoMAE: Masked Autoencoders Are Data-Efficient Learners for Self-Supervised Video Pre-Training》;3)《X3D: Expanding Architectures for Efficient Video Recognition》。这些研究主要集中在如何利用Transformer架构改进视频理解任务,但大多关注的是语义任务而非本文所探讨的4D任务。
沙发等你来抢
去评论
评论
沙发等你来抢