TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment

2024年05月22日
  • 简介
    尽管有大量的网络视频文本数据可用,但是视频理解仍然是一个挑战,这主要是由于视频的固有复杂性和最近网络收集的视频文本数据中语言监督的低效性所致。本文介绍了一种新方法——文本预对齐(TOPA),用于扩展大型语言模型(LLMs)以实现视频理解,无需对真实视频数据进行预训练。具体而言,我们首先使用先进的LLM自动生成连续的文本帧组成的文本视频,并附带相应的注释来模拟真实的视频文本数据。然后,这些带注释的文本视频用于预对齐仅包含语言的LLM和视频模态。为了弥合文本和真实视频之间的差距,我们使用CLIP模型作为特征提取器来对齐图像和文本模态。在文本预对齐期间,连续的文本帧被编码为CLIP文本特征序列,类似于连续的CLIP图像特征,从而将LLM与真实视频表示对齐。广泛的实验,包括零-shot评估和在各种视频理解任务上的微调,证明TOPA是一种有效和高效的框架,用于将视频内容与LLMs对齐。特别是,在没有对任何视频数据进行训练的情况下,TOPA-Llama2-13B模型在具有挑战性的长形视频理解基准Egoschema上实现了51.0%的Top-1准确率。这种性能超过了以前的视频文本预训练方法,并且证明了与最近基于GPT-3.5的视频代理相竞争。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决视频理解的挑战,即如何将大型语言模型(LLMs)扩展到视频理解领域,同时避免对真实视频数据进行预训练。
  • 关键思路
    TOPA是一种新颖的方法,通过生成连续的文本帧和相应的注释来模拟真实的视频文本数据,然后使用这些文本视频来预对齐仅使用语言的LLM和视频模态。使用CLIP模型作为特征提取器来对齐图像和文本模态。在仅使用文本数据进行预对齐的情况下,TOPA-Llama2-13B模型在Egoschema数据集上实现了51.0%的Top-1准确度,超过了以前的视频文本预训练方法,并证明与最近的基于GPT-3.5的视频代理具有竞争力。
  • 其它亮点
    论文使用了大型语言模型(LLMs)和CLIP模型,并提出了一种新颖的方法TOPA,用于将LLMs扩展到视频理解领域。实验结果表明,TOPA是一种有效和高效的框架,可以将视频内容与LLMs对齐。该论文还使用了Egoschema数据集进行了实验,并在零样本评估和微调等各种视频理解任务上取得了良好的表现。论文没有提供开源代码。
  • 相关研究
    在最近的研究中,也有一些使用大型语言模型(LLMs)的方法来解决视频理解问题,例如VideoBERT和ViLBERT。此外,还有一些研究使用CLIP模型来对齐图像和文本模态,例如CLIP和CLIP-RN。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问