OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

2024年06月13日
  • 简介
    本文介绍了OmniTokenizer,这是一种基于Transformer的tokenizer,用于联合图像和视频的tokenization。OmniTokenizer采用了时空分离的架构,结合了窗口和因果注意力来进行空间和时间建模。为了充分利用图像和视频数据的互补性,我们提出了一种渐进式训练策略,首先在固定分辨率下对图像数据进行训练,以发展其空间编码能力,然后在多个分辨率上联合训练图像和视频数据,以学习时间动态。OmniTokenizer首次在统一框架内处理图像和视频输入,并证明了实现它们的协同作用的可能性。大量实验表明,OmniTokenizer在各种图像和视频数据集上实现了最先进的重建性能,例如在ImageNet上实现了1.11的重建FID,在UCF-101上实现了42的重建FVD,分别比以前的SOTA方法高出13%和26%。此外,我们还展示了当与OmniTokenizer集成时,基于语言模型的方法和扩散模型都可以实现先进的视觉合成性能,凸显了我们方法的优越性和多功能性。代码可在https://github.com/FoundationVision/OmniTokenizer获得。
  • 图表
  • 解决问题
    本论文旨在解决图像和视频联合分析中的分词问题,提出了一种基于变压器的OmniTokenizer,以实现对图像和视频数据的联合编码。
  • 关键思路
    OmniTokenizer是一种时空解耦的体系结构,它结合了窗口和因果注意力,用于空间和时间建模。同时,该论文还提出了一种渐进式训练策略,首先在固定分辨率上对图像数据进行训练,然后在多个分辨率上联合训练图像和视频数据,以学习时空动态。
  • 其它亮点
    OmniTokenizer是首个在统一框架内处理图像和视频输入的分词器,并在多个数据集上实现了最先进的重建性能。此外,论文还展示了OmniTokenizer与基于语言模型和扩散模型的方法相结合,可以实现先进的视觉合成性能。
  • 相关研究
    最近的相关研究包括:《Image Transformer》、《Video Transformer Networks》、《Transformers for Image Captioning at Scale》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论