Streaming Long Video Understanding with Large Language Models

2024年05月25日
  • 简介
    本文介绍了一种名为VideoStreaming的先进的视觉语言大模型(VLLM),用于视频理解,能够流式编码和自适应选择具有恒定数量的视频标记,从而能够理解任意长度的视频。在视觉语言领域中,视频理解的挑战主要在于从长视频中提取出大量标记所带来的显著计算负担。以往的研究依赖于稀疏采样或帧压缩来减少标记。然而,这些方法要么忽略了长时间跨度内的时间信息,要么牺牲了空间细节,导致压缩不准确。为了解决这些限制,我们的VideoStreaming具有两个核心设计:记忆传播流式编码和自适应记忆选择。记忆传播流式编码架构将长视频分成短片段,并使用传播的记忆顺序编码每个片段。在每次迭代中,我们利用前一个片段的编码结果作为历史记忆,将其与当前片段集成,以提炼出一个简洁的表示,封装了当前时间戳之前的视频内容。编码过程后,自适应记忆选择策略从所有历史记忆中选择一定数量的与问题相关的记忆,并将它们馈送到LLM中生成信息丰富的响应。问题相关的选择减少了记忆中的冗余,实现了高效而精确的视频理解。同时,分离的视频提取和推理设计使LLM能够通过直接选择相应的记忆来回答关于视频的不同问题,而无需为每个问题对整个视频进行编码。我们的模型在长视频基准测试中实现了卓越的性能和更高的效率,展示了对详细问题回答的精确时间理解。
  • 图表
  • 解决问题
    本文旨在解决视觉语言领域中视频理解的问题,即长视频中大量token的计算负担。之前的方法要么忽略长时间跨度内的时间信息,要么牺牲空间细节,导致压缩不完整。
  • 关键思路
    本文提出了两个核心设计:Memory-Propagated Streaming Encoding和Adaptive Memory Selection。前者将长视频分成短片段,并使用传播的记忆逐个编码每个片段。后者从所有历史记忆中选择与问题相关的常数个记忆,并将其馈入LLM以生成信息丰富的响应。
  • 其它亮点
    本文的亮点在于采用了Memory-Propagated Streaming Encoding和Adaptive Memory Selection两个核心设计,实现了长视频的高效理解和精确的问题回答。实验使用了多个数据集,并取得了优异的性能和高效率。此外,本文的模型可以直接选择相应的记忆来回答不同的问题,而无需为每个问题编码整个视频。
  • 相关研究
    在视觉语言领域中,最近的相关研究包括:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VideoBERT: A Joint Model for Video and Language Representation Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论