VidLA: Video-Language Alignment at Scale

2024年03月21日
  • 简介
    本文提出了VidLA,一种用于大规模视频语言对齐的方法。之前的视频语言对齐方法存在两个主要限制。首先,它们不能捕捉短期和长期时间依赖关系,并且通常采用复杂的分层深度网络架构,难以与现有的预训练图像-文本基础模型集成。为了有效解决这个限制,我们保持网络结构简单,并使用一组数据令牌,以分层方式在不同时间分辨率上运行,考虑到视频的时间分层性质。通过采用简单的双塔结构,我们能够使用预训练的图像-文本基础模型初始化我们的视频语言模型,从而提高最终性能。其次,现有的视频语言对齐工作由于缺乏语义对齐的大规模训练数据而困难重重。为了克服这一问题,我们利用最近的LLMs来筛选出迄今为止最大的视频语言数据集,并具有更好的视觉基础。此外,与仅包含短片的现有视频文本数据集不同,我们的数据集包含不同持续时间的视频片段,以帮助我们的分层数据令牌在不同时间尺度上提取更好的表示。总体而言,实证结果表明,我们提出的方法在多个检索基准上超过了现有的最先进方法,特别是在较长的视频上表现出色,并在分类基准上表现出竞争力。
  • 图表
  • 解决问题
    本文旨在提出一种规模化的视频-语言对齐方法,以解决现有方法中存在的短期和长期时间依赖性捕获不足的问题,同时也解决了语义对齐的数据集不足的问题。
  • 关键思路
    本文提出了一种简单的双塔模型,使用一组数据令牌以分层方式在不同时间分辨率下运行,以应对视频的时间分层性。此外,通过使用预训练的图像-文本基础模型初始化视频-语言模型,进一步提高了最终性能。
  • 其它亮点
    本文的亮点包括使用大规模的视频-语言数据集,利用LLMs进行更好的视觉定位,并丰富了视频剪辑的持续时间,以帮助数据令牌在不同时间尺度上提取更好的表示。实验结果表明,该方法在多个检索基准测试中超过了现有方法,特别是在较长的视频上表现更好,并在分类基准测试中表现竞争力。
  • 相关研究
    与本文相关的研究包括:1)视频-语言对齐的先前方法,如TGN、ViLBERT等;2)最近的大规模视频-文本数据集,如VATEX、YouCook2等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论