CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation

2024年04月30日
  • 简介
    本技术报告介绍了首次尝试利用对比语言-图像预训练(CLIP)来训练可转移的Mamba模型。Mamba模型和基于Mamba的模型已经在各个领域得到越来越广泛的应用,并取得了最先进的性能。我们训练了不同大小的Mamba模型,并在26个零样本分类数据集和16个超出分布(OOD)数据集上进行了全面评估。我们的研究结果表明,拥有6700万参数的Mamba模型在零样本分类任务中与拥有3.07亿参数的Vision Transformer(ViT)模型相当,凸显了Mamba模型的参数效率。在OOD泛化测试中,Mamba模型在OOD图像对比度条件或经过高通滤波处理时表现出了异常的性能。然而,Hessian分析表明,与基于ViT的模型相比,Mamba模型具有更尖锐和更非凸的景观,使其更具挑战性。源代码可在https://github.com/raytrun/mamba-clip上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在训练可转移的Mamba模型,利用对比语言-图像预训练(CLIP)方法,解决零样本分类和OOD泛化问题。
  • 关键思路
    本文使用对比学习的方法对Mamba模型进行预训练,使其能够在零样本和OOD分类任务中表现出色。与307M参数的ViT模型相比,仅有67M参数的Mamba模型也能取得相似的表现。
  • 其它亮点
    本文使用了26个零样本分类数据集和16个OOD数据集来评估Mamba模型的性能,发现Mamba模型在OOD图像对比度较高或经过高通滤波的情况下表现出色。但是,Hessian分析表明,与ViT模型相比,Mamba模型具有更尖锐和更非凸的景观,使其更难以训练。作者已在github上开源了源代码。
  • 相关研究
    最近的相关研究包括使用对比学习方法对图像和文本进行预训练的CLIP方法,以及使用Mamba模型进行图像分类的先前工作。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问