- 简介现代学习框架通常使用大量未标记的数据训练深度神经网络,通过解决简单的预文本任务来学习表示,然后将这些表示用作下游任务的基础。这些网络是经验性设计的,因此通常不可解释,它们的表示不是结构化的,它们的设计可能是冗余的。白盒深度网络中,每个层明确地识别和转换数据中的结构,提供了一种有前途的替代方案。然而,现有的白盒架构仅在有标记数据的监督设置中显示出可扩展性,例如分类。在这项工作中,我们提供了第一个可以应用于大规模无监督表示学习的白盒设计范例。我们通过利用扩散、压缩和(掩蔽的)完成之间的基本联系,导出了一个深度变压器式的掩蔽自编码器架构,称为CRATE-MAE,其中每个层的角色在数学上是完全可解释的:它们将数据分布转换为结构化表示并从中恢复。广泛的实证评估证实了我们的分析洞见。CRATE-MAE在大规模图像数据集上表现出极具前景的性能,同时仅使用与具有相同模型配置的标准掩蔽自编码器相比约30%的参数。CRATE-MAE学习的表示具有显式结构并包含语义含义。代码可在https://github.com/Ma-Lab-Berkeley/CRATE上获得。
- 图表
- 解决问题本文试图提出一种新的白盒设计范式,用于大规模无监督表示学习。现有的白盒体系结构只在有标签数据的监督设置中展示出作用,因此需要一种新方法来扩展其应用范围。
- 关键思路通过利用扩散、压缩和(掩码)完成之间的基本联系,推导出了一种新的深度变换器式掩码自编码器结构,称为CRATE-MAE,其中每层的作用在数学上是完全可解释的:它们将数据分布转换为结构化表示,并从中恢复数据分布。相比于标准的掩码自编码器,CRATE-MAE仅使用了相同模型配置的30%的参数,但在大规模图像数据集上表现出高度可靠的性能。
- 其它亮点实验结果表明,CRATE-MAE在大规模图像数据集上表现出高度可靠的性能,同时只使用了相同模型配置的标准掩码自编码器的30%的参数。CRATE-MAE学习到的表示具有明确的结构并且包含语义含义。代码已经开源。
- 最近的相关研究主要集中在掩码自编码器的改进上,如DALL-E和CLIP等。


提问交流