Tarsier: Recipes for Training and Evaluating Large Video Description Models

向作者提问

NEW

简介

本文介绍了Tarsier，一种大规模视频-语言模型系列，旨在生成高质量的视频描述。Tarsier使用CLIP-ViT分别对每一帧进行编码，然后使用LLM模型来建模时间关系。尽管其架构简单，但通过精心设计的两阶段训练过程，我们证明Tarsier模型比任何现有的开源模型都具有更强的视频描述能力，在人类并排评估中显示出$+51.4\%$的优势。此外，它们与最先进的专有模型相当，对GPT-4V的优势为$+12.3\%$，对Gemini 1.5 Pro的劣势为$-6.7\%$。除了视频描述，Tarsier还证明了它是一个多才多艺的通用模型，在包括多项选择VQA、开放式VQA和零样本视频字幕等九个公共基准测试中取得了新的最先进结果。我们的第二个贡献是引入了一个新的基准测试，用于评估视频描述模型，其中包括来自不同来源和不同复杂度的视频，以及一个专门设计用于评估细粒度视频描述质量的自动方法。我们在\url{https://github.com/bytedance/tarsier}上公开了我们的模型和评估基准。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决生成细粒度视频描述的问题，通过引入Tarsier模型，使用CLIP-ViT编码帧并使用LLM建模时间关系，实现高质量视频描述生成。同时，本文还致力于解决多项视频理解任务，并提出了一个新的视频描述评估基准。
关键思路

Tarsier模型采用了CLIP-ViT编码帧和LLM建模时间关系的两阶段训练方法，相较于现有开源模型和专有模型，在生成视频描述方面表现出了更强的能力，并在多项视频理解任务中取得了新的最优结果。
其它亮点

本文提出的Tarsier模型不仅在视频描述任务中表现出色，同时在多项视频理解任务中也取得了新的最优结果。此外，本文还提出了一个新的视频描述评估基准，并公开了模型和评估基准的代码。
相关研究

在最近的相关研究中，还有一些关于视频描述生成的研究，如《Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions》、《Video Captioning with Transferred Semantic Attributes》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问