Towards Multi-Task Multi-Modal Models: A Video Generative Perspective

2024年05月26日
  • 简介
    语言基础模型的进步主要推动了最近人工智能的激增。相比之下,非文本模态(尤其是视频)的生成学习显著落后于语言建模。本论文记录了我们构建多任务模型的努力,用于在不同条件下生成视频和其他模态,以及用于理解和压缩应用。考虑到视觉数据的高维度,我们追求简明准确的潜在表示。我们的视频本地空时标记保留了高保真度。我们揭示了一种新的方法,可以在视觉观察和可解释的词汇术语之间进行双向映射。此外,我们的可扩展视觉标记表示在生成、压缩和理解任务中证明了其益处。这一成就标志着语言模型在视觉合成方面超越了扩散模型的首次实例,并且视频标记器的表现超过了行业标准编解码器。在这些多模态潜在空间中,我们研究了多任务生成模型的设计。我们的掩蔽多任务转换器在视频生成的质量、效率和灵活性方面表现出色。我们使一种仅在文本上训练的冻结语言模型能够生成视觉内容。最后,我们构建了一个可扩展的生成多模态转换器,从头开始训练,能够在不同条件下生成具有相应音频的高保真度运动视频。在整个过程中,我们展示了整合多个任务、打造高保真度潜在表示和生成多种模态的有效性。这项工作为未来探索生成非文本数据和在各种媒体形式中实现实时交互体验提供了有趣的潜力。
  • 图表
  • 解决问题
    本论文旨在构建多任务模型,用于在不同条件下生成视频和其他模态,并进行理解和压缩应用。目标是提高非文本数据生成的质量和效率。
  • 关键思路
    本论文的关键思路是使用视频本地的时空标记器来保留高保真度,同时使用可解释的词汇项来实现视觉观察和词汇术语之间的双向映射。同时,使用可扩展的视觉标记表示在生成、压缩和理解任务中证明了其优越性。
  • 其它亮点
    论文使用了多种数据集进行实验,并开源了代码。研究表明,本文提出的多任务生成模型在视频生成方面表现出色,甚至优于行业标准编解码器。此外,通过冻结仅针对文本的语言模型,可以生成视觉内容。最终,本文构建了一个可扩展的生成多模态变压器,使其能够在不同条件下生成高保真度的视频和相应的音频。
  • 相关研究
    在最近的相关研究中,还有一些关于视频生成和多模态生成的论文,如《Generative Adversarial Networks for Video Generation and Compressed Sensing》和《Multimodal Generative Models for Scalable Weakly-Supervised Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论