- 简介最近视觉语言模型的进展主要归因于图像文本数据的丰富。我们的目标是为视频语言模型复制这一成功,但是没有足够的人工筛选的视频文本数据可用。因此,我们采用合成指导数据来微调强大的图像语言基线的视频语言模型。然后,使用生成的高质量字幕自动标注数百万个视频。我们展示了适应后的视频语言模型在广泛的视频语言基准测试中表现良好。例如,它在开放式NExT-QA上的表现超过了最佳先前结果2.8%。此外,我们的模型为以前未见过的视频生成详细的描述,这比现有方法提供了更好的文本监督。实验表明,对这些自动生成的字幕进行对比训练的视频语言双编码器模型比也利用视觉语言模型的最强基线好3.8%。我们的最佳模型在MSR-VTT零样本文本到视频检索上的表现超过了最先进的方法6%。
-
- 图表
- 解决问题本论文旨在解决视频-语言模型中数据不足的问题,通过使用合成的指导数据fine-tuning一个强的图像-语言基线模型来生成高质量的视频标题,提高视频语言模型的性能。
- 关键思路使用合成的指导数据fine-tuning一个强的图像-语言基线模型来解决视频-语言模型中数据不足的问题,并生成高质量的视频标题。
- 其它亮点本论文的亮点在于使用合成的指导数据fine-tuning视频-语言模型,提高了模型的性能,并且在多个视频-语言基准测试中表现出色,同时也提供了更好的文本监督。论文还介绍了实验设计和数据集,并提供了开源代码。值得进一步研究的是使用自动生成的标题进行对比训练的视频-语言双编码器模型的表现优于当前最强的基线模型。
- 在这个领域中,最近的相关研究包括:《Unsupervised Video Captioning with Self-Imitation Learning》、《VideoBERT: A Joint Model for Video and Language Representation Learning》、《HERO: Hierarchical Encoder for Video+Language Omni-representation Learning》等。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流