CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

简介

我们介绍了CogVideoX，这是一个大规模扩散变换器模型，旨在根据文本提示生成视频。为了有效地建模视频数据，我们建议利用3D变分自编码器（VAE）沿空间和时间维度压缩视频。为了改善文本-视频对齐，我们提出了一个专家变换器，具有专家自适应LayerNorm，以促进两种模态之间的深度融合。通过采用渐进式训练技术，CogVideoX擅长生成具有显着运动特征的连贯、长时间视频。此外，我们开发了一种有效的文本-视频数据处理流程，包括各种数据预处理策略和视频字幕方法。它显著有助于提高CogVideoX的性能，改善生成质量和语义对齐。结果表明，CogVideoX在多个机器指标和人类评估方面都表现出最先进的性能。3D因果VAE和CogVideoX的模型权重均可在https://github.com/THUDM/CogVideo上公开获取。
图表
解决问题

CogVideoX试图解决的问题是基于文本提示生成视频的挑战。该模型旨在提高文本和视频之间的对齐度，并能够生成连贯、长时间的视频。
关键思路

CogVideoX的关键思路是结合3D变分自编码器和专家变换器，通过渐进式训练技术，从而提高文本和视频之间的对齐度，并生成连贯、长时间的视频。
其它亮点

论文提出了一种有效的文本-视频数据处理流程，包括各种数据预处理策略和视频字幕方法，这显著提高了CogVideoX的性能，提高了生成质量和语义对齐度。CogVideoX在多个机器度量和人类评估方面都表现出最先进的性能。论文提供了3D因果VAE和CogVideoX的模型权重，并公开了代码。
相关研究

在这个领域的相关研究包括：1）Neural Baby Talk，2）Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks，3）Contextually-Driven Multimedia Moment Retrieval，4）Video Captioning with Transferred Semantic Attributes。

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

评论