- 简介大型视觉语言模型(LVLM)提高了视觉语言理解中各种下游任务的性能。大多数现有方法将图像和视频编码为单独的特征空间,然后将其作为输入提供给大型语言模型。然而,由于缺乏统一的图像和视频标记化,即投影前的不对齐,使得大型语言模型(LLM)难以从几个差劣的投影层中学习多模态交互。在这项工作中,我们将视觉表示统一到语言特征空间中,将基础LLM推进到统一的LVLM。结果,我们建立了一个简单但强大的LVLM基线,Video-LLaVA,它从混合的图像和视频数据集中学习,相互增强。Video-LLaVA在5个图像问答数据集和4个图像基准工具包中的9个图像基准测试中取得了优异的表现。此外,我们的Video-LLaVA在MSRVTT、MSVD、TGIF和ActivityNet上分别比Video-ChatGPT高出5.8%、9.9%、18.6%和10.1%。值得注意的是,广泛的实验表明,Video-LLaVA在统一的视觉表示中相互受益于图像和视频,优于专门为图像或视频设计的模型。我们的目标是为LLM的多模态输入提供适度的见解。
-
- 图表
- 解决问题论文旨在将图像和视频的视觉表示统一到语言特征空间中,以提高视觉语言理解的性能。这个问题是否是一个新问题?
- 关键思路论文的关键思路是将图像和视频的视觉表示与语言特征空间统一,从而创建一个统一的大型视觉语言模型。这个思路相比当前领域的研究有哪些新意?
- 其它亮点论文的实验使用了多个数据集,并开源了代码。他们的模型在广泛的图像基准测试中表现出色,并且在多个视频数据集上也超过了其他模型。此外,他们的模型还表现出统一的视觉表示可以相互增强的特点,比专门为图像或视频设计的模型表现更好。
- 最近的相关研究包括:VisualBERT、ViLBERT、LXMERT等。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流