Image and Video Tokenization with Binary Spherical Quantization

简介

我们提出了一种新的基于变压器的图像和视频分词器，使用二元球面量化（BSQ）。BSQ将高维视觉嵌入投影到低维超球体上，然后应用二进制量化。BSQ具有以下特点：（1）无需显式码本，参数高效；（2）可扩展到任意标记维度；（3）紧凑：最小失真情况下可将视觉数据压缩高达100倍。我们的分词器使用变压器编码器和解码器，采用简单的块状因果掩蔽来支持可变长度的视频输入。最终的BSQ-ViT在图像和视频重建基准上实现了最先进的视觉重建质量，与最佳先前方法相比，吞吐量提高了2.4倍。此外，通过学习适应性算术编码的自回归先验，BSQ-ViT在视频压缩方面实现了与最先进的视频压缩标准相媲美的结果。BSQ-ViT还使掩蔽语言模型能够实现与基于GAN和扩散的方法相竞争的图像合成质量。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种新的基于Transformer的图像和视频分词器，使用二进制球形量化（BSQ）来实现压缩和重建，同时探索其在视频压缩和图像合成中的应用。
关键思路

本论文的关键思路是使用二进制球形量化（BSQ）来实现图像和视频的压缩和重建，并使用Transformer编码器和解码器来支持可变长度的视频输入。
其它亮点

本论文提出的BSQ-ViT方法在图像和视频重建基准测试中取得了最先进的结果，同时具有高效性和压缩效果好的特点。此外，BSQ-ViT还能够实现掩蔽语言模型在图像合成方面的竞争力。
相关研究

在这个领域中，最近的相关研究包括：《End-to-End Optimized Image Compression via Learning Pixel Clustering》、《Learning the Image Processing Pipeline》、《Generative Adversarial Networks》等。

Image and Video Tokenization with Binary Spherical Quantization

提问交流

提问交流