Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies

2024年06月16日
  • 简介
    大型语言模型(LLMs)不仅在语言任务中表现出有效性,而且在视频推理中也表现出有效性。本文介绍了一个新的数据集,电影中的梗(TiM),旨在作为探索两种关键但以前被忽视的视频推理技能的测试平台:(1)抽象感知:理解和标记视频中的抽象概念,以及(2)长距离组合推理:规划和整合中间推理步骤,以理解具有众多帧的长距离视频。利用电影叙事中的梗,TiM评估了最先进的基于LLM的方法的推理能力。我们的实验表明,包括Captioner-Reasoner、Large Multimodal Model Instruction Fine-tuning和Visual Programming在内的当前方法,在解决抽象感知和长距离组合推理的挑战时,仅略微优于随机基线。为了解决这些不足,我们提出了增强角色交互意识的面部增强VIPER(FEVoRI)和上下文查询缩减(ConQueR),并逐步在推理过程中改进电影上下文和梗查询,从而显著提高了15个F1分数的性能。然而,这种性能仍然落后于人类水平(40 vs. 65 F1)。此外,我们介绍了一种新的协议来评估抽象感知和长距离组合推理对任务解决的必要性。这是通过使用抽象语法树(AST)分析Visual Programming生成的代码来完成的,从而确认了TiM的增加复杂性。数据集和代码可在以下网址上获得:https://ander1119.github.io/TiM。
  • 图表
  • 解决问题
    探索视频推理中的抽象感知和长程合成推理技能,提出了一个新的数据集Tropes in Movies (TiM),并评估了当前基于LLM的方法在这些技能上的表现。
  • 关键思路
    提出了两种增强Visual Programming方法的新算法,即Face-Enhanced Viper of Role Interactions (FEVoRI)和Context Query Reduction (ConQueR),并在TiM数据集上进行了实验,取得了显著的性能提升。
  • 其它亮点
    实验结果表明,当前基于LLM的方法在抽象感知和长程合成推理方面的表现仍然有待提高,而FEVoRI和ConQueR算法能够显著提高性能。论文还提出了一种新的评估协议,使用AST分析Visual Programming生成的代码,以确认TiM数据集的复杂性。数据集和代码已经公开。
  • 相关研究
    在这个领域中,最近的相关研究包括VideoBERT和VidBERT等基于LLM的视频推理方法,以及CATER和CoLlision数据集等其他视频推理数据集。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论