Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders

2024年03月26日
  • 简介
    自监督图像编码器的预训练在文献中普遍存在,特别是在引入遮蔽自编码器(MAE)后。目前的工作试图从视频中的运动中学习以物体为中心的表示。特别地,SiamMAE最近引入了一个孪生网络,使用高度不对称的遮蔽比(95%)从视频的两个帧中训练共享权重编码器。在这项工作中,我们提出了CropMAE,这是一种与SiamMAE引入的孪生预训练的替代方法。我们的方法特别之处在于,它仅考虑从同一图像中不同裁剪的图像对,而不是从视频中提取的传统帧对。因此,CropMAE消除了对视频数据集的需求,同时保持了竞争性能并大大减少了预训练时间。此外,我们证明了CropMAE可以学习类似的以物体为中心的表示,而不需要明确的运动,这表明当前的自监督学习方法不是通过运动学习对象,而是通过孪生架构。最后,CropMAE实现了迄今为止最高的遮蔽比(98.5%),可以仅使用两个可见补丁来重构图像。我们的代码可在https://github.com/alexandre-eymael/CropMAE上获得。
  • 图表
  • 解决问题
    CropMAE: 一种用于图像编码器自监督预训练的新方法,通过裁剪同一图像的不同部分来学习对象中心表示,以替代传统的从视频中提取帧对的方法。
  • 关键思路
    CropMAE通过裁剪同一图像的不同部分来学习对象中心表示,避免了需要视频数据集的问题,并且在不需要显式运动的情况下学习到了类似的对象表示。
  • 其它亮点
    CropMAE使用了98.5%的遮挡比率,实现了仅使用两个可见补丁就能重建图像的效果。该论文的代码已经在GitHub上开源。
  • 相关研究
    与CropMAE相关的研究包括Masked autoencoders(MAE)和SiamMAE,它们都是用于图像编码器自监督预训练的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论