SIGMA:Sinkhorn-Guided Masked Video Modeling

2024年07月22日
  • 简介
    视频预训练为学习强大的视觉表征提供了巨大的潜力。最近,掩码视频建模方法显示出了可扩展性的有希望的特点,但由于重构预定义的低级目标,如像素,而无法捕捉更高层次的语义。为了解决这个问题,我们提出了Sinkhorn-guided Masked Video Modelling(SIGMA),这是一种新颖的视频预训练方法,它不仅联合学习视频模型,还使用投影网络学习目标特征空间。然而,这个简单的修改意味着常规的L2重构损失将导致平凡的解决方案,因为两个网络都是联合优化的。作为解决方案,我们将空间时间管道的特征均匀分布到有限数量的可学习聚类中。通过将其作为最优输运问题来提出,我们在批次中强制生成的特征具有高熵性,将语义和时间含义注入特征空间。所得到的聚类分配用作对称预测任务的目标,其中视频模型预测投影网络的聚类分配,反之亦然。在三个基准测试中的十个数据集上的实验结果验证了SIGMA在学习更高性能、时间感知和稳健的视频表征方面的有效性,改进了最先进的方法。我们的项目网站和代码可在以下网址访问:https://quva-lab.github.io/SIGMA。
  • 图表
  • 解决问题
    论文旨在提出一种新的视频预训练方法,以解决当前视频预训练方法在捕捉高级语义方面的不足。
  • 关键思路
    论文提出了一种名为Sinkhorn-guided Masked Video Modelling (SIGMA)的视频预训练方法,它使用投影网络联合学习视频模型和目标特征空间,并通过将空间-时间管的特征均匀分布到有限数量的可学习聚类中来强制生成的特征具有高熵,从而将语义和时间意义注入特征空间。
  • 其它亮点
    论文的实验结果表明,SIGMA方法在十个数据集上的表现优于现有的视频预训练方法,同时它还具有更好的时间感知能力和鲁棒性。论文提供了代码和项目网站。
  • 相关研究
    最近的相关研究包括:《Unsupervised Learning of Visual Features by Contrasting Cluster Assignments》、《VideoBERT: A Joint Model for Video and Language Representation Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论