CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

2024年08月12日
  • 简介
    我们介绍了CogVideoX,这是一个大规模扩散变换器模型,旨在根据文本提示生成视频。为了有效地建模视频数据,我们建议利用3D变分自编码器(VAE)沿空间和时间维度压缩视频。为了改善文本-视频对齐,我们提出了一个专家变换器,具有专家自适应LayerNorm,以促进两种模态之间的深度融合。通过采用渐进式训练技术,CogVideoX擅长生成具有显着运动特征的连贯、长时间视频。此外,我们开发了一种有效的文本-视频数据处理流程,包括各种数据预处理策略和视频字幕方法。它显著有助于提高CogVideoX的性能,改善生成质量和语义对齐。结果表明,CogVideoX在多个机器指标和人类评估方面都表现出最先进的性能。3D因果VAE和CogVideoX的模型权重均可在https://github.com/THUDM/CogVideo上公开获取。
  • 图表
  • 解决问题
    CogVideoX试图解决的问题是基于文本提示生成视频的挑战。该模型旨在提高文本和视频之间的对齐度,并能够生成连贯、长时间的视频。
  • 关键思路
    CogVideoX的关键思路是结合3D变分自编码器和专家变换器,通过渐进式训练技术,从而提高文本和视频之间的对齐度,并生成连贯、长时间的视频。
  • 其它亮点
    论文提出了一种有效的文本-视频数据处理流程,包括各种数据预处理策略和视频字幕方法,这显著提高了CogVideoX的性能,提高了生成质量和语义对齐度。CogVideoX在多个机器度量和人类评估方面都表现出最先进的性能。论文提供了3D因果VAE和CogVideoX的模型权重,并公开了代码。
  • 相关研究
    在这个领域的相关研究包括:1)Neural Baby Talk,2)Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks,3)Contextually-Driven Multimedia Moment Retrieval,4)Video Captioning with Transferred Semantic Attributes。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论