论文标题:Investigating the Vision Transformer Model for Image Retrieval Tasks 论文链接:https://arxiv.org/abs/2101.03771 作者单位:色雷斯德谟克利特大学, 那波勒斯大学 改善图像检索性能的一个关键方向是重新审视文献中已建立的基于CNN的方法,并用Vision Transformer代替backbone预训练网络,开创了图像检索方法的新纪元!
本文介绍了一种即插即用描述符,无需事先进行初始化或准备即可将其有效地用于图像检索任务。描述方法利用了最近提出的Vision Transformer网络,而它不需要任何训练数据来调整参数。在图像检索任务中,过去几年中,基于卷积神经网络(CNN)的方法已非常成功地取代了手工制作的全局和局部描述符的使用。但是,本文针对文献中的36个最新描述符对几个基准数据集进行的实验评估表明,不包含卷积层的神经网络(例如Vision Transformer)可以塑造全局描述符并实现竞争结果。由于不需要进行微调,因此所提出的方法的低复杂性鼓励采用该体系结构作为图像检索基准模型,从而取代了传统的,采用率很高的基于CNN的方法,并开创了图像检索方法的新纪元。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢