Autoregressive Pretraining with Mamba in Vision

2024年06月11日
  • 简介
    视觉学界已经开始使用最近开发的状态空间模型Mamba作为一系列任务的新骨干。本文表明,通过自回归预训练,可以显著提高Mamba的视觉能力,这是以前没有探索的方向。在效率方面,自回归的特性可以很好地利用Mamba的单向循环结构,使整体训练速度比其他训练策略(如掩码建模)更快。在性能方面,自回归预训练使Mamba架构的准确性显著提高,比其受监督训练的对应物更高,更重要的是,成功地解锁了其扩展到大甚至巨大模型规模的潜力。例如,通过自回归预训练,基础大小的Mamba获得了83.2%的ImageNet准确率,比其受监督的对应物高出2.0%;我们的巨大大小的Mamba是迄今为止最大的Vision Mamba,获得了85.0%的ImageNet准确率(使用$384\times384$输入进行微调时为85.5%),显著超过所有其他Mamba变体在视觉上的表现。代码可在\url{https://github.com/OliverRensu/ARM}上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在通过自回归预训练提高Mamba模型在视觉任务中的性能,同时探索Mamba模型的可扩展性。
  • 关键思路
    本论文提出了一种新的自回归预训练方法来提高Mamba模型的视觉能力,并展示了该方法的高效性和高精度性。
  • 其它亮点
    本论文的实验结果表明,使用自回归预训练可以显著提高Mamba模型的性能和可扩展性,使其在ImageNet数据集上取得了更高的准确率。作者还提供了开源代码。
  • 相关研究
    最近的相关研究包括使用不同的预训练方法来提高图像分类模型的性能,如SimCLR、MoCo等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问