
在本文中,作者对不同的VT进行了实验分析,比较了它们在小训练集中的鲁棒性,结果表明,尽管在ImageNet上训练时具有相当的精度,但它们在较小数据集上的性能会有很大的不同。因此,作者提出了一种自监督的任务,该任务可以从图像中提取其他信息,而计算开销却可以忽略不计。
此任务鼓励VT学习图像中的空间关系,并在训练数据不足时使VT训练更加鲁棒。本文的自监督任务可以与监督任务联合使用,并且它不依赖于特定的网络结构,因此它可以很容易地插入现有的VT中。基于不同的VT结构和数据集进行广泛的评估,作者证明了本文的方法可以提高 VT的准确率。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢