ECCV 2022 | 上交&华为提出SdAE：自蒸馏掩码自编码器

SdAE: Self-distillated Masked Autoencoder
论文：https://arxiv.org/abs/2208.00449

1. 论文动机

介绍了BEIT和PECO的弊端，是需要一个预先训练好的dVAE来提供最后的预测目标。这种tokenizer需要pretrain。

介绍了MAE和splitmask的弊端，就是重建目标和语义理解可能有较大的鸿沟。

文章基于这两个点提出了改进：

a.引入根据EMA更新权重的教师模型，来产生预测目标。

b.其次是通过分析学生分支和教师分支之间的information bottleneck，从而提出一个新的重建的策略。

模型结构图

相比于还原像素等low-level的特征，论文采用了教师分支输出特征的方法。并且对教师分支的特征进行Patch内部的归一化。

这部分预测目标的修改，在最近的工作其实比较多，不展开。

文章通过分析学生分支和教师分支的输入之间的互信息，得出了三个结论。

教师模型输入的策略

因此文章提出了新的策略——先将被遮掩的块进行分组，保证每一组的图像块的数量和学生分支输入的数量接近，然后每一组图像块分别通过共享的教师分支的模型，得到相应的特征，作为被预测的对象。

这种新的策略相比于全图输入和被遮掩的块一次性输入，计算速度能有些许提升。