- 简介本文介绍了Tarsier,一种大规模视频-语言模型系列,旨在生成高质量的视频描述。Tarsier使用CLIP-ViT分别对每一帧进行编码,然后使用LLM模型来建模时间关系。尽管其架构简单,但通过精心设计的两阶段训练过程,我们证明Tarsier模型比任何现有的开源模型都具有更强的视频描述能力,在人类并排评估中显示出$+51.4\%$的优势。此外,它们与最先进的专有模型相当,对GPT-4V的优势为$+12.3\%$,对Gemini 1.5 Pro的劣势为$-6.7\%$。除了视频描述,Tarsier还证明了它是一个多才多艺的通用模型,在包括多项选择VQA、开放式VQA和零样本视频字幕等九个公共基准测试中取得了新的最先进结果。我们的第二个贡献是引入了一个新的基准测试,用于评估视频描述模型,其中包括来自不同来源和不同复杂度的视频,以及一个专门设计用于评估细粒度视频描述质量的自动方法。我们在\url{https://github.com/bytedance/tarsier}上公开了我们的模型和评估基准。
-
- 图表
- 解决问题本文旨在解决生成细粒度视频描述的问题,通过引入Tarsier模型,使用CLIP-ViT编码帧并使用LLM建模时间关系,实现高质量视频描述生成。同时,本文还致力于解决多项视频理解任务,并提出了一个新的视频描述评估基准。
- 关键思路Tarsier模型采用了CLIP-ViT编码帧和LLM建模时间关系的两阶段训练方法,相较于现有开源模型和专有模型,在生成视频描述方面表现出了更强的能力,并在多项视频理解任务中取得了新的最优结果。
- 其它亮点本文提出的Tarsier模型不仅在视频描述任务中表现出色,同时在多项视频理解任务中也取得了新的最优结果。此外,本文还提出了一个新的视频描述评估基准,并公开了模型和评估基准的代码。
- 在最近的相关研究中,还有一些关于视频描述生成的研究,如《Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions》、《Video Captioning with Transferred Semantic Attributes》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流