Scaling White-Box Transformers for Vision

2024年05月30日
  • 简介
    CRATE是一种白盒变压器架构,旨在学习压缩和稀疏表示,由于其固有的数学可解释性,它为标准视觉变换器(ViTs)提供了一种有趣的替代方案。尽管对语言和视觉变换器的可扩展性进行了广泛的研究,但CRATE的可扩展性仍然是一个未解决的问题,本文旨在解决这个问题。具体而言,我们提出了CRATE-$\alpha$,它在CRATE架构设计中的稀疏编码块中进行了战略性但最小的修改,并设计了一个轻量级的训练配方,以提高CRATE的可扩展性。通过大量的实验,我们证明CRATE-$\alpha$可以有效地随着更大的模型大小和数据集进行扩展。例如,我们的CRATE-$\alpha$-B在ImageNet分类上的准确性比之前最好的CRATE-B模型提高了3.7%,达到了83.2%的准确率。同时,当进一步扩展时,我们的CRATE-$\alpha$-L获得了85.1%的ImageNet分类准确性。更值得注意的是,这些模型性能的提高是在保留和潜在地增强了学习的CRATE模型的可解释性的情况下实现的,我们通过展示不断增大的训练CRATE-$\alpha$模型的学习令牌表示产生越来越高质量的无监督图像分割来证明这一点。项目页面为https://rayjryang.github.io/CRATE-alpha/。
  • 图表
  • 解决问题
    本文旨在解决CRATE模型的可扩展性问题,并提出了CRATE-alpha模型,以及相应的轻量级训练方法。
  • 关键思路
    CRATE-alpha模型在CRATE模型中对稀疏编码块进行了战略性的最小修改,同时使用了轻量级的训练方法,从而提高了CRATE模型的可扩展性。
  • 其它亮点
    实验结果表明,CRATE-alpha模型可以随着模型大小和数据集的增大而有效地扩展。此外,CRATE-alpha模型可以保持甚至提高CRATE模型的可解释性,同时实现更好的性能。研究者还展示了CRATE-alpha模型在无监督目标分割方面的优越性能。
  • 相关研究
    最近的相关研究包括ViT模型和其他语言和视觉transformer模型的扩展性研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论