Global-Local Similarity for Efficient Fine-Grained Image Recognition with Vision Transformers

2024年07月17日
  • 简介
    细粒度识别涉及对来自从属宏类别的图像进行分类,由于类间差异较小,这是具有挑战性的。为了克服这一问题,大多数方法通过特征提取骨干后跟随高层特征细化步骤来进行区分性特征选择。最近的许多研究表明,视觉Transformer作为细粒度识别的骨干具有潜力,但其使用注意力机制来选择区分性标记可能具有计算上的昂贵性。在这项工作中,我们提出了一种新颖且计算廉价的度量方法来识别图像中的区分性区域。我们比较了由Transformer用于分类的可学习标记(CLS标记)给出的图像的全局表示和单个补丁的局部表示之间的相似性。我们选择具有最高相似性的区域以获得裁剪,这些裁剪通过相同的Transformer编码器进行转发。最后,通过将原始表示和裁剪表示的高层特征一起进一步细化,以使预测更加稳健。通过广泛的实验评估,我们证明了我们提出的方法的有效性,在各种数据集上获得了有利的准确性结果。此外,与其他替代方案相比,我们的方法以更低的计算成本实现了这些结果。代码和检查点可在以下网址获得:\url{https://github.com/arkel23/GLSim}。
  • 图表
  • 解决问题
    本论文的问题是如何在细粒度识别任务中有效地识别图像中的区域,从而提高分类精度。这是一个新问题。
  • 关键思路
    本论文提出了一种新的方法,使用Transformer的CLS令牌全局表示和局部表示之间的相似性来识别图像中的区域。这种方法具有较低的计算成本,相比于其他方法有更高的效率。
  • 其它亮点
    本论文的亮点是提出了一种新的方法来解决细粒度识别任务中的区域识别问题,并通过实验验证了该方法的有效性。实验使用了多个数据集,并且开源了代码和预训练模型。这项工作有助于提高细粒度识别任务的分类精度。
  • 相关研究
    最近的相关研究包括使用Transformer来进行图像分类和细粒度识别的工作,以及使用注意力机制来选择图像中的区域的方法。其中一些相关的论文包括:“An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”和“Learning to Localize Sound Source in Visual Scenes”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论