HVM-1: Large-scale video models pretrained with nearly 5000 hours of human-like video data

简介

我们介绍了“类人视频模型”（HVM-1），这是一种大规模的视频模型，使用时空掩蔽自编码器（ST-MAE）算法，预先训练了近5000小时的人类样本视频数据（主要是自我中心、时间延长、连续录制的视频）。我们发布了两个633M参数模型，分别在224x224和448x448像素的空间分辨率下进行训练。我们评估了这些模型在下游少样本视频和图像识别任务中的表现，并将它们与预先训练了1330小时来自YouTube的短动作视频剪辑的模型（Kinetics-700）进行比较。尽管相应的预训练数据集的时空特征存在实质性的差异，但HVM-1模型在下游评估中表现与Kinetics-700预训练模型相当。与在相同数据上使用基于图像的MAE算法预先训练的模型相比，HVM-1模型还学习了更准确和更稳健的对象表示，证明了学习预测自然视频中的时间规律对于学习更好的对象表示的潜在益处。
图表
解决问题

本论文旨在通过使用ST-MAE算法，对接近5000小时的人类视频数据进行预训练，构建出大规模视频模型（HVM-1），并探究这些模型在少样本视频和图像识别任务中的表现，以及与其他预训练模型的比较。
关键思路

本论文的关键思路是使用ST-MAE算法对大量人类视频数据进行预训练，从而构建出HVM-1模型，并通过对比实验发现，相比于其他预训练模型，HVM-1模型能够更准确、更稳健地学习物体表示，这证明了学习预测自然视频中的时间规律对于学习更好的物体表示是有潜在益处的。
其它亮点

本论文的实验结果表明，HVM-1模型在少样本视频和图像识别任务中的表现与Kinetics-700预训练模型相当，尽管两者的预训练数据集在时空特征上存在显著差异。此外，本论文还开源了两个HVM-1模型，分别在224x224和448x448像素的空间分辨率下进行训练，并提供了数据集和代码。
相关研究

在该领域的相关研究包括：《Temporal Pyramid Network for Action Recognition》、《Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition》、《Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors》等。

HVM-1: Large-scale video models pretrained with nearly 5000 hours of human-like video data

评论