- 简介随着多模态大型语言模型(LLM)的最新进展,越来越多的关注点从图像文本数据转向了更具信息量的真实世界视频。与静态图像相比,视频在大规模预训练中建模其时空动态的过程中面临着独特的挑战。本文通过有效的视频分解来解决视频语言预训练中的这些限制,将每个视频表示为关键帧和时间运动。然后,使用经过精心设计的分词器将视觉和时间信息离散化为少量标记,从而实现对视频、图像和文本的统一生成预训练。在推理过程中,从LLM生成的标记被仔细恢复到原始连续像素空间,以创建各种视频内容。我们提出的框架既能够理解又能够生成图像和视频内容,其在13个图像和视频理解和生成的多模态基准测试中表现出了竞争力。我们的代码和模型将在https://video-lavit.github.io上提供。
-
- 图表
- 解决问题本论文旨在解决视频语言预训练中的时空动态建模问题,提出了一种有效的视频分解方法,并使用离散化的视觉和时间信息作为标记器,实现了统一的生成式预训练。
- 关键思路论文提出了一种视频分解方法,将视频表示为关键帧和时间运动,并使用标记器将视觉和时间信息离散化为少量标记,从而实现了视频、图像和文本的统一生成式预训练。
- 其它亮点论文的亮点包括:使用视频分解方法解决了视频预训练中的时空动态建模问题;提出了标记器将视觉和时间信息离散化为少量标记,实现了统一的生成式预训练;在13个多模态基准测试中展示了竞争性能;代码和模型可在 https://video-lavit.github.io 上获得。
- 最近的相关研究包括:《Large-Scale Video Representation Learning via Relational Graph Clustering》、《VideoBERT: A Joint Model for Video and Language Representation Learning》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流