- 简介视频序列提供了有价值的时间信息,但现有的大型多模态模型在理解极长视频方面存在缺陷。许多研究通过使用视觉重新采样器减少视觉令牌的数量来解决这个问题。相反,在本文中,我们从语言模型的角度来解决这个问题。通过简单地推断语言主干的上下文长度,我们使LMM能够理解数量级更多的视觉令牌,而无需进行任何视频训练。我们称这种现象为长上下文转移,并仔细研究了其属性。为了有效地衡量LMM在视觉模态中泛化到长上下文的能力,我们开发了V-NIAH(Visual Needle-In-A-Haystack),这是一个纯合成的长视觉基准,受到语言模型的NIAH测试的启发。我们提出的长视频助手(LongVA)可以处理2000帧或超过200K个视觉令牌,而无需额外的复杂性。通过其扩展的上下文长度,LongVA在Video-MME中实现了7B规模模型中的最先进性能,通过密集采样更多的输入帧。我们的工作在https://github.com/EvolvingLMMs-Lab/LongVA上开源。
-
- 图表
- 解决问题本论文试图解决LMMs在理解极长视频方面的困难,通过从语言模型的角度出发,通过扩展语言骨干的上下文长度,使LMMs能够理解数量级更多的视觉令牌,而无需进行视频训练。
- 关键思路本论文的关键思路是通过简单地外推语言骨干的上下文长度,实现长上下文传递,从而使LMMs能够理解数量级更多的视觉令牌。
- 其它亮点本论文提出了一个纯合成的长视觉基准V-NIAH(Visual Needle-In-A-Haystack),用于有效地衡量LMMs在视觉模态下泛化到长上下文的能力。此外,本文提出了LongVA(长视频助手),可以处理2000帧或超过200K的视觉令牌,而无需额外的复杂性。LongVA通过密集采样更多的输入帧,在Video-MME上实现了7B级模型的最先进性能。本文的工作已经在GitHub上开源。
- 在这个领域中,最近的相关研究包括使用视觉重采样器减少视觉令牌数量的方法以及使用其他技术来处理长视频。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流