- 简介数据质量是决定视频-语言表示学习有效性的关键因素。然而,以前的视频-文本配对数据通常不完全吻合,这可能导致视频-语言表示不能准确反映跨模态语义。此外,以前的数据还存在概念分布不均匀的问题,从而阻碍了在不受欢迎的主题下游任务的性能。为了解决这些问题,我们提出了一种带有减法角度边缘的对比目标,以规范跨模态表示,使其达到完美的相似度。此外,为了适应非均匀的概念分布,我们提出了一个多层感知器(MLP)参数化的加权函数,将损失值映射到样本权重,从而实现模型在训练期间动态调整焦点。在由少量无偏元数据指导的训练和由大型视觉-语言模型生成的视频-文本数据的增强下,我们改进了视频-语言表示,并在常用的视频问答和文本-视频检索数据集上取得了卓越的性能。
- 图表
- 解决问题本论文试图解决视频语言表示学习中数据质量不高的问题,包括视频和文本不完全对齐、概念分布不均匀等问题,从而提高视频问答和文本-视频检索数据集的性能。
- 关键思路论文提出了一种对比目标,采用减法角度边界来规范跨模态表示,以达到完美相似度。同时,利用多层感知器(MLP)参数化的加权函数来适应非均匀概念分布,动态调整模型的重点。
- 其它亮点论文使用少量无偏元数据引导训练,并利用大型视觉语言模型生成的视频文本数据进行增强,从而提高视频语言表示的性能。实验表明,该方法在视频问答和文本-视频检索数据集上取得了优越的性能。
- 在这个领域中,一些相关的研究包括《VideoBERT: A Joint Model for Video and Language Representation Learning》、《Unbiased Scene Graph Generation from Biased Training》、《Video Question Answering via Attribute-Augmented Attention Network Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢