VideoLLM: Modeling Video Sequence with Large Language Models

论文摘要:随着视频数据的指数增长,迫切需要自动化技术来分析和理解视频内容。然而,现有的视频理解模型通常是任务特定的,缺乏处理各种任务的全面能力。大型语言模型(LLMs)如GPT的成功已经证明了它们在序列因果推理方面的惊人能力。基于这一认识,我们提出了一个新的框架,称为VideoLLM,利用自然语言处理(NLP)中预训练的LLMs的序列推理能力来理解视频序列。VideoLLM包括一个精心设计的模态编码器和语义转换器,将来自各种模态的输入转换为统一的令牌序列。然后将该令牌序列馈入仅解码器的LLM中。随后,在简单任务头的帮助下,我们的VideoLLM为不同类型的视频理解任务提供了有效的统一框架。为了评估VideoLLM的有效性,我们使用多个LLMs和微调方法进行了广泛的实验。我们在来自四个不同数据集的八个任务上评估了我们的VideoLLM。实验结果表明,LLMs的理解和推理能力可以有效地转移到视频理解任务中。

内容中包含的图片若涉及版权问题,请及时与我们联系删除