Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

简介

大型视觉语言模型（LVLM）提高了视觉语言理解中各种下游任务的性能。大多数现有方法将图像和视频编码为单独的特征空间，然后将其作为输入提供给大型语言模型。然而，由于缺乏统一的图像和视频标记化，即投影前的不对齐，使得大型语言模型（LLM）难以从几个差劣的投影层中学习多模态交互。在这项工作中，我们将视觉表示统一到语言特征空间中，将基础LLM推进到统一的LVLM。结果，我们建立了一个简单但强大的LVLM基线，Video-LLaVA，它从混合的图像和视频数据集中学习，相互增强。Video-LLaVA在5个图像问答数据集和4个图像基准工具包中的9个图像基准测试中取得了优异的表现。此外，我们的Video-LLaVA在MSRVTT、MSVD、TGIF和ActivityNet上分别比Video-ChatGPT高出5.8%、9.9%、18.6%和10.1%。值得注意的是，广泛的实验表明，Video-LLaVA在统一的视觉表示中相互受益于图像和视频，优于专门为图像或视频设计的模型。我们的目标是为LLM的多模态输入提供适度的见解。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

论文旨在将图像和视频的视觉表示统一到语言特征空间中，以提高视觉语言理解的性能。这个问题是否是一个新问题？
关键思路

论文的关键思路是将图像和视频的视觉表示与语言特征空间统一，从而创建一个统一的大型视觉语言模型。这个思路相比当前领域的研究有哪些新意？
其它亮点

论文的实验使用了多个数据集，并开源了代码。他们的模型在广泛的图像基准测试中表现出色，并且在多个视频数据集上也超过了其他模型。此外，他们的模型还表现出统一的视觉表示可以相互增强的特点，比专门为图像或视频设计的模型表现更好。
相关研究

最近的相关研究包括：VisualBERT、ViLBERT、LXMERT等。

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

提问交流

提问交流