如何从数学角度解释何恺明新作Masked Autoencoders (MAE)？

本周，有一篇重磅论文“How to Understand Masked Autoencoders”为 MAE 提供了一种理论解释框架，并带有数学证明。这篇论文应该是截止目前，第一篇为 MAE 提出理论解释的论文。

论文标题：

How to Understand Masked Autoencoders

论文链接：

https://arxiv.org/abs/2202.03670

这篇论文使用了积分方程与算子理论的思想，为 MAE 模型提供了一套理论分析的框架，在这个框架内对 MAE 模型的构成和训练提出了 5 个关键（甚至是“反直觉”的）问题，并通过数学证明的方式给出了回答:

Q1. MAE 模型内部的表示空间是如何构成和优化的？它的表示空间是如何在 Transformer 内部跨层传播的？

Q2. MAE 对输入图像采用了分片化处理，这样做为什么有助于 MAE 模型的训练？

Q3. 为什么 MAE 内部低层和高层输出的特征表示之间没有明显的差异？

Q4. MAE 的解码器部分对它不重要吗？

Q5. MAE 对每个 masked patch 的重建只是参考其最相近的未被遮盖 patch 进行推断的吗？

内容中包含的图片若涉及版权问题，请及时与我们联系删除