本文认为,表示学习的自然目标是将数据分布(例如令牌集)压缩和转换为支持不相干子空间上的低维高斯混合分布。这样的表示的好坏可以通过一种被称为稀疏率降低的原则性度量来评估,该度量同时最大化学习表示的内在信息增益和外在稀疏性。从这个角度来看,流行的深度网络架构,包括Transformer,可以被视为实现优化此度量的迭代方案。特别是,我们从此目标的交替优化中推导出Transformer块:多头自注意力操作符通过实现特征编码率的近似梯度下降步骤来压缩表示,随后的多层感知机稀疏化特征。这导致了一系列白盒Transformer样式的深度网络架构,称为CRATE,这些架构在数学上是完全可解释的。我们通过去噪和压缩之间的新颖连接,展示了上述压缩编码的逆过程可以通过相同类别的CRATE架构来实现。因此,这些白盒架构对编码器和解码器都是通用的。实验表明,尽管简单,这些网络确实学习了如何压缩和稀疏化大规模实际图像和文本数据集的表示,并且实现了与高度工程化的Transformer模型(如ViT,MAE,DINO,BERT和GPT2)非常接近的性能。我们相信,所提出的计算框架在从数据压缩的统一视角桥接深度学习的理论和实践方面具有巨大的潜力。代码可在以下链接中找到:https://ma-lab-berkeley.github.io/CRATE。
提问交流