Autoregressive Pretraining with Mamba in Vision

简介

视觉学界已经开始使用最近开发的状态空间模型Mamba作为一系列任务的新骨干。本文表明，通过自回归预训练，可以显著提高Mamba的视觉能力，这是以前没有探索的方向。在效率方面，自回归的特性可以很好地利用Mamba的单向循环结构，使整体训练速度比其他训练策略（如掩码建模）更快。在性能方面，自回归预训练使Mamba架构的准确性显著提高，比其受监督训练的对应物更高，更重要的是，成功地解锁了其扩展到大甚至巨大模型规模的潜力。例如，通过自回归预训练，基础大小的Mamba获得了83.2％的ImageNet准确率，比其受监督的对应物高出2.0％；我们的巨大大小的Mamba是迄今为止最大的Vision Mamba，获得了85.0％的ImageNet准确率（使用$384\times384$输入进行微调时为85.5％），显著超过所有其他Mamba变体在视觉上的表现。代码可在\url{https://github.com/OliverRensu/ARM}上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过自回归预训练提高Mamba模型在视觉任务中的性能，同时探索Mamba模型的可扩展性。
关键思路

本论文提出了一种新的自回归预训练方法来提高Mamba模型的视觉能力，并展示了该方法的高效性和高精度性。
其它亮点

本论文的实验结果表明，使用自回归预训练可以显著提高Mamba模型的性能和可扩展性，使其在ImageNet数据集上取得了更高的准确率。作者还提供了开源代码。
相关研究

最近的相关研究包括使用不同的预训练方法来提高图像分类模型的性能，如SimCLR、MoCo等。

Autoregressive Pretraining with Mamba in Vision

提问交流

提问交流