JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

2024年08月15日
  • 简介
    最近图像和视频生成的研究采用了自回归LLM架构,因为它的通用性和可能易于集成到多模态系统中。将自回归训练应用于语言生成,用于视觉生成的关键是离散化——将像图像和视频这样的连续数据表示为离散标记。离散化图像和视频的常见方法包括建模原始像素值,这是过于冗长的,或者矢量量化,这需要复杂的预先训练。在这项工作中,我们建议直接将图像和视频建模为计算机上保存的压缩文件,通过规范编解码器(例如JPEG,AVC/H.264)输出压缩文件字节,使用默认的Llama架构而没有任何视觉特定的修改,从头开始预先训练JPEG-LM以生成图像(并使用AVC-LM作为概念验证生成视频),评估图像生成显示这种简单直接的方法比基于像素的建模和复杂的矢量量化基线更有效(我们的方法在这些基线上产生31%的FID降低)。我们的分析表明,JPEG-LM在生成长尾视觉元素方面具有特别优势,总体上,我们展示了使用规范编解码器表示可以帮助降低语言生成和视觉生成之间的障碍,促进未来关于多模态语言/图像/视频LLM的研究。
  • 图表
  • 解决问题
    论文提出直接使用图像和视频的压缩文件作为离散化的表示方法,从而解决了传统像素模型和向量量化模型过于复杂的问题。
  • 关键思路
    论文使用JPEG和AVC等标准编解码器的压缩文件作为图像和视频的表示,通过预训练JPEG-LM和AVC-LM模型生成图像和视频。
  • 其它亮点
    实验结果表明,这种方法比传统的基于像素模型和向量量化模型的方法更有效,尤其在生成长尾视觉元素方面表现更好。论文的方法简单直接,有助于将语言生成和视觉生成联系起来,为未来的多模态语言/图像/视频模型研究提供了可能性。
  • 相关研究
    最近的相关研究包括使用GPT模型生成图像和视频,以及使用向量量化模型进行图像生成。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问