本周,有一篇重磅论文“How to Understand Masked Autoencoders”为 MAE 提供了一种理论解释框架,并带有数学证明。这篇论文应该是截止目前,第一篇为 MAE 提出理论解释的论文。

论文标题:
How to Understand Masked Autoencoders

论文链接:

https://arxiv.org/abs/2202.03670
这篇论文使用了积分方程与算子理论的思想,为 MAE 模型提供了一套理论分析的框架,在这个框架内对 MAE 模型的构成和训练提出了 5 个关键(甚至是“反直觉”的)问题,并通过数学证明的方式给出了回答:
 
Q1. MAE 模型内部的表示空间是如何构成和优化的?它的表示空间是如何在 Transformer 内部跨层传播的?
Q2. MAE 对输入图像采用了分片化处理,这样做为什么有助于 MAE 模型的训练?
Q3. 为什么 MAE 内部低层和高层输出的特征表示之间没有明显的差异?
Q4. MAE 的解码器部分对它不重要吗?
Q5. MAE 对每个 masked patch 的重建只是参考其最相近的未被遮盖 patch 进行推断的吗?