- 简介这篇论文介绍了一种新的基于Transformer的熵模型,称为GroupedMixer。相比卷积神经网络,基于Transformer的熵模型在概率分布估计中具有更好的捕捉长距离依赖关系的能力,但由于像素级自回归或推理过程中的重复计算,之前的Transformer-based熵模型存在编码速度缓慢的问题。GroupedMixer通过沿空间-通道维度将潜变量分成组,然后使用提出的基于Transformer的熵模型对这些组进行熵编码,从而实现更快的编码速度和更好的压缩性能。全局因果自注意力被分解为更高效的组内和组间交互,使用内部组和跨组token-mixer实现。内部组token-mixer在组内包含上下文元素,而跨组token-mixer与先前解码的组进行交互。两个token-mixer的交替排列使全局上下文引用成为可能。为了进一步加快网络推理,引入了上下文缓存优化,将注意力激活值缓存在跨组token-mixer中,避免了复杂和重复的计算。实验结果表明,所提出的GroupedMixer具有最先进的速率失真性能和快速的压缩速度。
-
- 图表
- 解决问题本文旨在提出一种新型的基于Transformer的熵编码模型,以解决之前Transformer-based熵编码模型在编码速度上的缺陷。
- 关键思路本文提出了一种名为GroupedMixer的新型Transformer-based熵编码模型,通过将潜在变量沿着空间和通道维度分成不同的组,使用组内和组间的token-mixer实现更高效的组内自回归和组间交互,并通过上下文缓存优化来加速网络推理。
- 其它亮点本文的实验结果表明,GroupedMixer在速度和压缩性能方面均优于之前的Transformer-based方法,达到了最先进的速率失真性能。本文使用了多个数据集进行实验,并开源了代码。
- 最近的相关研究包括基于Transformer的其他熵编码模型,如VDEnc和Compressive Transformers。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流