VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

2024年05月29日
  • 简介
    视频语言理解任务通常关注短视频剪辑,但往往难以处理长视频理解任务。最近,许多长视频语言理解方法利用大型语言模型(LLMs)的推理能力来执行长视频问答(QA),将视频转换为密集采样的帧标题,并要求LLMs回答有关标题的文本查询。然而,用于字幕的帧通常是冗余的,包含不相关的信息,使得密集采样效率低下,并忽略了视频QA需要不同粒度的情况,其中一些视频片段与问题高度相关(需要更细粒度的详细信息),而其他视频片段则不相关。因此,这些基于LLMs的方法容易丢失信息,并在大量不相关的字幕上操作,降低了性能和效率。为了解决这些问题,我们介绍了VideoTree,这是一个具有查询自适应性和分层框架的长视频理解方法,利用LLMs。VideoTree从视频中动态提取与查询相关的信息,并构建基于树的表示形式,用于LLM推理。首先,VideoTree通过迭代地基于它们的视觉特征对帧进行聚类,并使用它们与查询的相关性对聚类进行评分,从而自适应地选择用于字幕的帧。其次,它将视觉聚类组织成一个查询自适应和分层的树结构;该树编码不同粒度的信息,对相关片段具有更高的分辨率。最后,VideoTree通过遍历树的关键帧并将它们的字幕传递给LLM回答者来生成答案。我们的方法相对于现有方法提高了推理准确性和效率:VideoTree在EgoSchema、NExT-QA和IntentQA基准测试中相对于基线分别实现了7.0%、2.2%和2.7%的准确率提高,同时将推理时间降低了40%。
  • 图表
  • 解决问题
    论文旨在解决长视频理解任务中存在的效率和准确性问题,提出了一种基于查询自适应和分层框架的视频理解方法。
  • 关键思路
    论文提出了一种基于查询自适应和分层框架的视频理解方法,通过动态提取与查询相关的信息并构建树形表示,实现了对视频的理解。该方法通过迭代聚类和评分,自适应地选择帧进行字幕生成,将视觉聚类组织成查询自适应和分层树结构,最终通过遍历树的关键帧并将它们的字幕传递给LLM回答者来生成答案。
  • 其它亮点
    通过实验验证,该方法相对于现有方法在EgoSchema、NExT-QA和IntentQA基准测试中分别取得了7.0%、2.2%和2.7%的准确度提高,并将推理时间缩短了40%。
  • 相关研究
    最近在这个领域中,也有其他使用LLM进行视频理解的研究,如VidBERT和ViLBERT。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论