Image and Video Tokenization with Binary Spherical Quantization

2024年06月11日
  • 简介
    我们提出了一种新的基于变压器的图像和视频分词器,使用二元球面量化(BSQ)。BSQ将高维视觉嵌入投影到低维超球体上,然后应用二进制量化。BSQ具有以下特点:(1)无需显式码本,参数高效;(2)可扩展到任意标记维度;(3)紧凑:最小失真情况下可将视觉数据压缩高达100倍。我们的分词器使用变压器编码器和解码器,采用简单的块状因果掩蔽来支持可变长度的视频输入。最终的BSQ-ViT在图像和视频重建基准上实现了最先进的视觉重建质量,与最佳先前方法相比,吞吐量提高了2.4倍。此外,通过学习适应性算术编码的自回归先验,BSQ-ViT在视频压缩方面实现了与最先进的视频压缩标准相媲美的结果。BSQ-ViT还使掩蔽语言模型能够实现与基于GAN和扩散的方法相竞争的图像合成质量。
  • 图表
  • 解决问题
    本论文旨在提出一种新的基于Transformer的图像和视频分词器,使用二进制球形量化(BSQ)来实现压缩和重建,同时探索其在视频压缩和图像合成中的应用。
  • 关键思路
    本论文的关键思路是使用二进制球形量化(BSQ)来实现图像和视频的压缩和重建,并使用Transformer编码器和解码器来支持可变长度的视频输入。
  • 其它亮点
    本论文提出的BSQ-ViT方法在图像和视频重建基准测试中取得了最先进的结果,同时具有高效性和压缩效果好的特点。此外,BSQ-ViT还能够实现掩蔽语言模型在图像合成方面的竞争力。
  • 相关研究
    在这个领域中,最近的相关研究包括:《End-to-End Optimized Image Compression via Learning Pixel Clustering》、《Learning the Image Processing Pipeline》、《Generative Adversarial Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论