- 简介我们提出了一种新的基于变压器的图像和视频分词器,使用二元球面量化(BSQ)。BSQ将高维视觉嵌入投影到低维超球体上,然后应用二进制量化。BSQ具有以下特点:(1)无需显式码本,参数高效;(2)可扩展到任意标记维度;(3)紧凑:最小失真情况下可将视觉数据压缩高达100倍。我们的分词器使用变压器编码器和解码器,采用简单的块状因果掩蔽来支持可变长度的视频输入。最终的BSQ-ViT在图像和视频重建基准上实现了最先进的视觉重建质量,与最佳先前方法相比,吞吐量提高了2.4倍。此外,通过学习适应性算术编码的自回归先验,BSQ-ViT在视频压缩方面实现了与最先进的视频压缩标准相媲美的结果。BSQ-ViT还使掩蔽语言模型能够实现与基于GAN和扩散的方法相竞争的图像合成质量。
- 图表
- 解决问题本论文旨在提出一种新的基于Transformer的图像和视频分词器,使用二进制球形量化(BSQ)来实现压缩和重建,同时探索其在视频压缩和图像合成中的应用。
- 关键思路本论文的关键思路是使用二进制球形量化(BSQ)来实现图像和视频的压缩和重建,并使用Transformer编码器和解码器来支持可变长度的视频输入。
- 其它亮点本论文提出的BSQ-ViT方法在图像和视频重建基准测试中取得了最先进的结果,同时具有高效性和压缩效果好的特点。此外,BSQ-ViT还能够实现掩蔽语言模型在图像合成方面的竞争力。
- 在这个领域中,最近的相关研究包括:《End-to-End Optimized Image Compression via Learning Pixel Clustering》、《Learning the Image Processing Pipeline》、《Generative Adversarial Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢