- 简介最近的大型语言模型已经增强了视觉能力,使它们能够理解图像、视频和交错的视觉语言内容。然而,这些大型多模态模型的学习方法通常将视频视为预定剪辑,使它们在处理流式视频输入时效果和效率较低。在本文中,我们提出了一种新颖的学习-视频流(LIVE)框架,它能够在连续的视频流中实现时间对齐、长时间上下文和实时对话。我们的LIVE框架包括全面的方法,以实现视频流对话,包括:(1)一个旨在执行连续流输入的语言建模的训练目标,(2)一个将离线时间注释转换为流式对话格式的数据生成方案,以及(3)一个优化的推理管道,以加速模型在现实世界的视频流中的响应。通过我们的LIVE框架,我们在Llama-2/Llama-3之上构建了VideoLLM-online模型,并展示了它在处理流式视频方面的显著优势。例如,平均而言,我们的模型可以在A100 GPU上以超过10 FPS的速度支持5分钟视频剪辑中的流式对话。此外,它还展示了在公共离线视频基准测试中的最先进性能,例如识别、字幕和预测。代码、模型、数据和演示已经可以在https://showlab.github.io/videollm-online获得。
-
- 图表
- 解决问题本论文旨在解决现有大型多模态模型处理流媒体视频输入时效率低下的问题,提出了一种新的Learning-In-Video-Stream(LIVE)框架,用于实现流媒体视频中的实时对话。
- 关键思路LIVE框架包括训练目标、数据生成方案和优化推理流程等综合方法,能够实现连续视频流中的语言建模、长时序对话和实时响应。该框架基于Llama-2/Llama-3构建了VideoLLM-online模型,能够在A100 GPU上以超过10 FPS的速度支持5分钟视频片段的流式对话,并在公共离线视频基准测试中展示了最先进的性能。
- 其它亮点论文提出了一种新的LIVE框架,能够实现流媒体视频中的实时对话;使用了Llama-2/Llama-3构建了VideoLLM-online模型,并在公共离线视频基准测试中展示了最先进的性能;论文提供了代码、模型、数据和演示。
- 最近在该领域中的相关研究包括:1)基于大型语言模型的多模态学习;2)视频理解和处理;3)流媒体视频中的对话建模。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流