- 简介本文解决了如何使ViT模型对未见过的仿射变换更具鲁棒性的挑战。这种鲁棒性在各种识别任务中都很有用,例如当图像对齐失败时的人脸识别。我们提出了一种新方法,称为KP-RPE,它利用关键点(例如面部标志)使ViT更具有抵抗尺度、平移和姿态变化的能力。我们首先观察到,相对位置编码(RPE)是将仿射变换概括到ViT中的一种好方法。然而,RPE只能向模型注入邻近像素比远处像素更重要的先验知识。关键点RPE(KP-RPE)是这个原则的扩展,其中像素的重要性不仅由它们的接近程度决定,还由它们相对于图像内特定关键点的相对位置决定。通过将像素的重要性固定在关键点周围,即使这些关系被仿射变换打乱,模型也可以更有效地保留空间关系。我们展示了KP-RPE在人脸和步态识别中的优点。实验结果表明,KP-RPE在从低质量图像中提高人脸识别性能方面特别有效,尤其是在对齐容易失败的情况下。代码和预训练模型可供使用。
- 图表
- 解决问题如何让ViT模型更加鲁棒,使其能够更好地处理未知的仿射变换,特别是在面部识别等任务中?
- 关键思路提出了一种名为KP-RPE的新方法,它利用关键点来增强ViT模型对尺度、平移和姿态变化的鲁棒性。KP-RPE是在相对位置编码(RPE)的基础上进行扩展的,通过将像素的重要性固定在关键点周围,使模型能够更有效地保留空间关系,即使这些关系被仿射变换破坏了。
- 其它亮点实验结果表明,KP-RPE在面部和步态识别方面的性能都有所提高。论文提供了代码和预训练模型。
- 近期在这个领域中的相关研究包括:'Attention-based Deep Multiple Instance Learning for Face Recognition','Deep Learning for Face Recognition: A Comprehensive Survey','Deep Face Recognition: A Survey'等。
沙发等你来抢
去评论
评论
沙发等你来抢