Rethinking Patch Dependence for Masked Autoencoders

2024年01月25日
  • 简介
    在这项工作中,我们重新审视了掩蔽自编码器(MAE)的解码机制中的补丁间依赖关系。我们将MAE中的掩蔽补丁重建的解码机制分解为自注意力和交叉注意力。我们的研究表明,掩蔽补丁之间的自注意力对于学习良好的表示并不是必要的。因此,我们提出了一种新的预训练框架:交叉注意力掩蔽自编码器(CrossMAE)。CrossMAE的解码器仅利用掩蔽和可见令牌之间的交叉注意力,而没有下游性能的降低。这种设计还可以仅解码一小部分掩蔽令牌,提高效率。此外,每个解码器块现在可以利用不同的编码器特征,从而实现了更好的表示学习。CrossMAE在2.5到3.7倍的解码计算量下与MAE的性能相当。在相同的计算量下,它也在ImageNet分类和COCO实例分割方面超过了MAE。代码和模型:https://crossmae.github.io
  • 图表
  • 解决问题
    论文旨在重新审视Masked Autoencoders(MAE)中解码机制中的补丁间依赖关系,并提出一种新的预训练框架Cross-Attention Masked Autoencoders(CrossMAE),以提高MAE的效率和性能。
  • 关键思路
    CrossMAE的解码器仅利用掩码和可见标记之间的交叉注意力,而不涉及掩码补丁之间的自我注意力,从而提高了效率。同时,每个解码器块现在可以利用不同的编码器特征,从而改善表示学习。
  • 其它亮点
    论文提出了一种新的预训练框架CrossMAE,可以提高MAE的效率和性能;实验表明CrossMAE与MAE在性能上相当,但解码计算量减少了2.5至3.7倍;CrossMAE在ImageNet分类和COCO实例分割方面的性能优于MAE;作者提供了代码和模型。
  • 相关研究
    最近的研究还在探索如何提高自编码器的效率和性能,例如利用注意力机制和交叉注意力。相关论文包括《Attention Is All You Need》和《Cross-Attention Networks with Pairwise Output Transformations》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论