VIMI: Grounding Video Generation through Multi-modal Instruction

简介

现有的文本到视频扩散模型仅依赖于文本编码器进行预训练。这种限制源于缺乏大规模的多模态提示视频数据集，导致缺乏视觉基础，并限制了它们在多模态集成中的适用性和应用范围。为了解决这个问题，我们采用检索方法将上下文示例与给定的文本提示配对，构建了一个大规模的多模态提示数据集，然后利用两阶段训练策略，在同一模型中实现多样化的视频生成任务。在第一阶段，我们提出了一个多模态条件视频生成框架，对这些增强的数据集进行预训练，建立了一个基础模型，用于生成有基础的视频。其次，我们在三个视频生成任务上微调第一阶段的模型，结合多模态指令。这个过程进一步提高了模型处理不同输入和任务的能力，确保了多模态信息的无缝集成。经过这个两阶段的训练过程，VIMI展示了多模态理解能力，根据提供的输入生成了上下文丰富、个性化的视频，如图1所示。与以前的视觉基础视频生成方法相比，VIMI可以合成具有大运动的一致和时间上连贯的视频，同时保持语义控制。最后，VIMI也在UCF101基准测试中实现了最先进的文本到视频生成结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决现有的文本到视频生成模型缺乏视觉支撑和多模态整合能力的问题。
关键思路

本文提出了一种两阶段训练的多模态条件视频生成框架VIMI，通过利用大规模多模态数据集和多模态指令，实现了多样化的视频生成任务。
其它亮点

本文构建了大规模多模态数据集，提出了两阶段训练的多模态条件视频生成框架VIMI，并在UCF101数据集上取得了最新的文本到视频生成结果。实验结果表明，VIMI能够生成语义控制准确、一致性强、时序连贯、运动大的视频。
相关研究

近期相关研究包括：1.《Text-to-Video Generation Grounded by Fine-Grained User Attention》；2.《Generative Multimodal Models for Scalable Weakly-Supervised Learning》；3.《Multimodal Transformer for Unaligned Multimodal Language Sequences》等。

VIMI: Grounding Video Generation through Multi-modal Instruction

提问交流

提问交流