- 简介我们介绍了VideoPrism,这是一个通用的视频编码器,可以通过单个冻结模型处理各种视频理解任务。我们在一个异构语料库上对VideoPrism进行了预训练,该语料库包含36M个高质量的视频字幕对和582M个带有噪声平行文本(例如ASR转录)的视频剪辑。预训练方法通过全局-局部蒸馏语义视频嵌入和令牌洗牌方案对掩码自编码进行改进,使VideoPrism能够主要关注视频模态,同时利用与视频相关的宝贵文本。我们广泛测试了VideoPrism在四个广泛的视频理解任务组上,从网络视频问答到科学CV,实现了33个视频理解基准测试中30个的最先进性能。
-
- 图表
- 解决问题论文旨在提出一种通用的视频编码器VideoPrism,可以通过一个冻结的模型解决各种视频理解任务。该模型通过对大量高质量视频-字幕对和带有噪声平行文本的视频剪辑进行预训练,利用全局-局部蒸馏语义视频嵌入和令牌洗牌方案,使VideoPrism能够主要关注视频模态,同时利用与视频相关的宝贵文本。论文旨在验证这种方法在广泛的视频理解任务中的效果。
- 关键思路论文的关键思路是使用全局-局部蒸馏语义视频嵌入和令牌洗牌方案,同时利用与视频相关的文本,从而提出一种通用的视频编码器VideoPrism,可以通过一个冻结的模型解决各种视频理解任务。
- 其它亮点论文在四个广泛的视频理解任务组上进行了广泛的测试,从Web视频问答到CV for science,取得了30个视频理解基准测试中的33个的最先进表现。论文使用了36M高质量视频-字幕对和582M带有噪声平行文本的视频剪辑进行预训练,并且在实验中使用了多个数据集。论文的方法和实验结果值得关注,但是需要更多的工作来进一步验证其通用性和鲁棒性。
- 在最近的相关研究中,也有一些关于视频理解的研究,例如:1. 'Learning to Compose Dynamic Tree Structures for Visual Contexts';2. 'VideoBERT: A Joint Model for Video and Language Representation Learning';3. 'Unsupervised Video Object Segmentation with Motion Property Understanding'。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流