Tarsier: Recipes for Training and Evaluating Large Video Description Models

2024年06月30日
  • 简介
    本文介绍了Tarsier,一种大规模视频-语言模型系列,旨在生成高质量的视频描述。Tarsier使用CLIP-ViT分别对每一帧进行编码,然后使用LLM模型来建模时间关系。尽管其架构简单,但通过精心设计的两阶段训练过程,我们证明Tarsier模型比任何现有的开源模型都具有更强的视频描述能力,在人类并排评估中显示出$+51.4\%$的优势。此外,它们与最先进的专有模型相当,对GPT-4V的优势为$+12.3\%$,对Gemini 1.5 Pro的劣势为$-6.7\%$。除了视频描述,Tarsier还证明了它是一个多才多艺的通用模型,在包括多项选择VQA、开放式VQA和零样本视频字幕等九个公共基准测试中取得了新的最先进结果。我们的第二个贡献是引入了一个新的基准测试,用于评估视频描述模型,其中包括来自不同来源和不同复杂度的视频,以及一个专门设计用于评估细粒度视频描述质量的自动方法。我们在\url{https://github.com/bytedance/tarsier}上公开了我们的模型和评估基准。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决生成细粒度视频描述的问题,通过引入Tarsier模型,使用CLIP-ViT编码帧并使用LLM建模时间关系,实现高质量视频描述生成。同时,本文还致力于解决多项视频理解任务,并提出了一个新的视频描述评估基准。
  • 关键思路
    Tarsier模型采用了CLIP-ViT编码帧和LLM建模时间关系的两阶段训练方法,相较于现有开源模型和专有模型,在生成视频描述方面表现出了更强的能力,并在多项视频理解任务中取得了新的最优结果。
  • 其它亮点
    本文提出的Tarsier模型不仅在视频描述任务中表现出色,同时在多项视频理解任务中也取得了新的最优结果。此外,本文还提出了一个新的视频描述评估基准,并公开了模型和评估基准的代码。
  • 相关研究
    在最近的相关研究中,还有一些关于视频描述生成的研究,如《Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions》、《Video Captioning with Transferred Semantic Attributes》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问