White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?

简介

本文认为，表示学习的自然目标是将数据分布（例如令牌集）压缩和转换为支持不相干子空间上的低维高斯混合分布。这样的表示的好坏可以通过一种被称为稀疏率降低的原则性度量来评估，该度量同时最大化学习表示的内在信息增益和外在稀疏性。从这个角度来看，流行的深度网络架构，包括Transformer，可以被视为实现优化此度量的迭代方案。特别是，我们从此目标的交替优化中推导出Transformer块：多头自注意力操作符通过实现特征编码率的近似梯度下降步骤来压缩表示，随后的多层感知机稀疏化特征。这导致了一系列白盒Transformer样式的深度网络架构，称为CRATE，这些架构在数学上是完全可解释的。我们通过去噪和压缩之间的新颖连接，展示了上述压缩编码的逆过程可以通过相同类别的CRATE架构来实现。因此，这些白盒架构对编码器和解码器都是通用的。实验表明，尽管简单，这些网络确实学习了如何压缩和稀疏化大规模实际图像和文本数据集的表示，并且实现了与高度工程化的Transformer模型（如ViT，MAE，DINO，BERT和GPT2）非常接近的性能。我们相信，所提出的计算框架在从数据压缩的统一视角桥接深度学习的理论和实践方面具有巨大的潜力。代码可在以下链接中找到：https://ma-lab-berkeley.github.io/CRATE。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图提出一种新的表示学习方法，将数据压缩和转化为低维高斯混合分布，同时最大化内在信息增益和外在稀疏性。这是否是一个新问题？
关键思路

论文提出的方案是CRATE，是一种基于交替优化的白盒深度神经网络，包含多头自注意力和多层感知机，可以实现压缩和稀疏化表示。该方案的新意在于将表示学习问题转化为数据压缩问题，并提出了一种全新的衡量指标sparse rate reduction。
其它亮点

论文使用了大规模的图像和文本数据集进行实验，证明了CRATE网络可以有效地学习压缩和稀疏化表示，并且在性能上与目前流行的深度网络模型（如ViT、MAE、DINO、BERT和GPT2）相当。此外，论文还提出了压缩编码和去噪编码之间的新颖联系，证明了CRATE网络可以同时作为编码器和解码器。
相关研究

最近在这个领域中，还有一些相关的研究，如VAE、AE、GAN等。

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?

提问交流

提问交流