标题:FAIR|Masked Autoencoders As Spatiotemporal Learners(屏蔽的自动编码器作为时空学习器)
作者:Christoph Feichtenhofer, Haoqi Fan, Yanghao Li, Kaiming He
简介:本文研究了从视频中学习时空表示,将屏蔽自动编码器(MAE)的概念进行简单扩展。作者随机遮盖视频中的时空补丁,并学习自动编码器以像素为单位重建它们。有趣的是,作者证明了作者的MAE方法可以学习强表示。在时空中几乎没有嵌入感应偏差(只有补丁和位置除外),与时空无关的随机掩码表现最佳。作者观察到最佳遮罩率高达90%(图像上为75%),支持该比率与数据。高掩蔽比可带来较大的加速,例如,时间上大于4倍甚至更多。作者在几个具有挑战性的视频数据集上报告了与使用朴素视觉变换器的竞争性结果。作者观察到MAE监督预训练以很大的优势可以跑赢大盘。
论文下载:https://arxiv.org/pdf/2205.09113v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢