Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation

2023年10月09日
  • 简介
    本文指出,虽然大型语言模型(LLMs)是语言生成任务的主要模型,但在图像和视频生成方面,它们的表现不如扩散模型。为了有效地利用LLMs进行视觉生成,其中一个关键组成部分是视觉分词器,它将像素空间输入映射到适合LLM学习的离散标记。本文介绍了MAGVIT-v2,这是一个视频分词器,旨在使用通用标记词汇为视频和图像生成简洁而富有表现力的标记。配备了这个新的分词器,我们展示了LLMs在标准图像和视频生成基准测试中优于扩散模型。此外,我们还证明了我们的分词器在两个任务上超过了以前表现最好的视频分词器:(1)根据人类评估,与下一代视频编解码器(VCC)相当的视频压缩,以及(2)学习有效的动作识别任务表示。
  • 图表
  • 解决问题
    本论文旨在解决使用LLMs进行图像和视频生成时的困难,提出了一种视频分词器MAGVIT-v2,将像素空间输入映射为LLMs学习所需的离散标记。同时,论文通过实验验证了使用MAGVIT-v2的LLMs在ImageNet和Kinetics等标准图像和视频生成基准测试上的优越性。
  • 关键思路
    本论文的关键思路是设计了一种视频分词器MAGVIT-v2,将像素空间输入映射为LLMs学习所需的离散标记,从而提高LLMs在图像和视频生成任务中的表现。
  • 其它亮点
    论文的亮点包括:1. 提出了一种新的视频分词器MAGVIT-v2,将像素空间输入映射为LLMs学习所需的离散标记;2. 通过实验验证了使用MAGVIT-v2的LLMs在ImageNet和Kinetics等标准图像和视频生成基准测试上的优越性;3. 在视频压缩和动作识别等任务上,MAGVIT-v2也表现出色;4. 论文使用了开源的数据集和代码,值得进一步研究。
  • 相关研究
    最近在这个领域的相关研究包括:1. GPT-3等LLMs在语言生成任务上的应用;2. 使用diffusion models进行图像和视频生成等研究;3. 视频分词器的设计和应用等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论