VideoLLM-online: Online Video Large Language Model for Streaming Video

向作者提问

NEW

简介

最近的大型语言模型已经增强了视觉能力，使它们能够理解图像、视频和交错的视觉语言内容。然而，这些大型多模态模型的学习方法通常将视频视为预定剪辑，使它们在处理流式视频输入时效果和效率较低。在本文中，我们提出了一种新颖的学习-视频流（LIVE）框架，它能够在连续的视频流中实现时间对齐、长时间上下文和实时对话。我们的LIVE框架包括全面的方法，以实现视频流对话，包括：（1）一个旨在执行连续流输入的语言建模的训练目标，（2）一个将离线时间注释转换为流式对话格式的数据生成方案，以及（3）一个优化的推理管道，以加速模型在现实世界的视频流中的响应。通过我们的LIVE框架，我们在Llama-2/Llama-3之上构建了VideoLLM-online模型，并展示了它在处理流式视频方面的显著优势。例如，平均而言，我们的模型可以在A100 GPU上以超过10 FPS的速度支持5分钟视频剪辑中的流式对话。此外，它还展示了在公共离线视频基准测试中的最先进性能，例如识别、字幕和预测。代码、模型、数据和演示已经可以在https://showlab.github.io/videollm-online获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决现有大型多模态模型处理流媒体视频输入时效率低下的问题，提出了一种新的Learning-In-Video-Stream（LIVE）框架，用于实现流媒体视频中的实时对话。
关键思路

LIVE框架包括训练目标、数据生成方案和优化推理流程等综合方法，能够实现连续视频流中的语言建模、长时序对话和实时响应。该框架基于Llama-2/Llama-3构建了VideoLLM-online模型，能够在A100 GPU上以超过10 FPS的速度支持5分钟视频片段的流式对话，并在公共离线视频基准测试中展示了最先进的性能。
其它亮点

论文提出了一种新的LIVE框架，能够实现流媒体视频中的实时对话；使用了Llama-2/Llama-3构建了VideoLLM-online模型，并在公共离线视频基准测试中展示了最先进的性能；论文提供了代码、模型、数据和演示。
相关研究

最近在该领域中的相关研究包括：1）基于大型语言模型的多模态学习；2）视频理解和处理；3）流媒体视频中的对话建模。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问