TPAMI 2022:跨年龄人脸识别与合成:一个多任务学习框架和新基准
复旦大学计算机科学技术学院, 复旦大学类脑智能科学与技术研究院
*通讯作者:单洪明
原文标题:When Age-Invariant Face Recognition Meets Face Age Synthesis: A Multi-Task Learning Framework and A New Benchmark
原文链接:https://ieeexplore.ieee.org/document/9931965/
论文代码:https://hzzone.github.io/MTLFace/
本文提出了一个统一的多任务框架来联合处理跨年龄人脸识别和合成两个任务,称为MTLFace。它可以学习用于人脸识别的年龄不变的身份表征,同时实现用于模型解释的令人满意的人脸合成。具体而言,我们提出了一种基于注意力的特征分解,以空间约束的方式将混合的面部特征分解为两个不相关的分量身份特征和年龄相关特征。与实现组级合成的传统one-hot编码不同,我们提出了一种新的身份条件模块来实现身份级的合成,该模块可以通过权重共享策略提高合成人脸的年龄平滑度。受益于所提出的多任务框架,我们利用年龄合成中的高质量合成人脸,通过一种新的选择性微调策略进一步提高人脸识别。此外,为了推进这两个任务,我们收集并发布了一个带有年龄和性别标注的跨年龄人脸数据集,以及一个专门为追踪长期失踪儿童而设计的新基准。在五个基准跨年龄数据集上的广泛实验结果表明,MTLFace在识别与合成中都比最先进的方法产生了更好的性能。我们在两个流行的通用人脸识别数据集上进一步验证了 MTLFace,在自然场景下人脸识别方面获得了竞争性的性能。
人脸识别多年来一直是计算机视觉领域的研究热点。通用人脸识别模型通常使用大量数据和基于 margin 的损失函数来提高类内紧凑性,以提高识别性能 [1,2,3]。
尽管通用人脸识别 (General Face Recognition, GFR)取得了显著的成功,但如何最大限度地减少年龄变化的影响是当前人脸识别系统在许多实际应用中正确识别人脸的一个长期挑战,例如追踪长期失踪的儿童。因此,实现无年龄变化的人脸识别,即年龄不变的人脸识别 (Age-Invariant Face Recognition, AIFR)具有重要意义。然而,AIFR 在以下三个方面仍然极具挑战性。首先,当跨年龄人脸识别中的年龄差距变大时,年龄差异会主导面部外观,从而显著影响人脸识别性能。其次,面部年龄合成(Face Age Synthesis, FAS)是一个复杂的过程,涉及面部老化/年轻化 (也称为年龄增长/衰退)。而且面部外观在很长一段时间内会发生巨大变化,并且因人而异。最后,要获得大规模的成对人脸数据集来训练模型,在保持身份的同时渲染具有自然效果的人脸是不可行的。
为了解决上述问题,当前的 AIFR 方法可以大致归纳为两类:生成模型和判别模型。给定人脸图像,生成模型[4,5,6] 旨在将不同年龄组的人脸转换为同一年龄组,以最小化年龄变化对人脸识别的影响。最近,生成对抗网络(GAN)[7] 已成功用于增强合成人脸的图像质量[8,9,10,11,12],这些人脸通常使用一种独热编码来指定目标年龄组。然而,独热编码代表了年龄组级别的人脸转换,忽略了身份级别的个性化模式。因为合成的人脸会有很强的伪影,并且人脸的身份也发生了变化,所以 AIFR 的性能无法得到提高。另一方面,判别模型[13,14] 侧重于通过从混合的人脸信息中分离身份相关的信息来提取年龄不变特征,从而使人脸识别系统仅使用身份相关信息。尽管这些模型在 AIFR 中取得了良好的性能,但它们不能像生成方法那样为用户(例如警察)提供视觉结果,以进一步验证身份,这可能会损害许多实际应用决策过程中模型的可解释性。
图 1 多任务学习框架的示意图
对于 AIFR ,编码器 E 首先从输入人脸中提取混合特征图,然后通过多任务训练和连续域自适应将其分解为两个不相交的身份和年龄相关特征图。
对于 FAS,解码器 D 根据身份条件模块的输出和多级年龄条件的控制下生成不同年龄的人脸,而鉴别器Dimg 惩罚整个框架以获得更好的视觉质量。
我们进一步提出一种新的选择性微调策略(Selective Fine-tuning Strategy, FT-Sel),该策略可以选择性地将高质量的合成人脸纳入训练数据,以进一步提高AIFR任务的人脸识别性能。我们的动机来自于观察到,在训练数据中有一些10岁以下的儿童面孔,因为收集成对的儿童和成人面孔很麻烦。这种不平衡的数据(即缺少儿童面部)将严重损害儿童的人脸识别性能,影响跟踪长期失踪儿童的实际应用。
受益于所提出的多任务框架,我们可以合成 10 岁以下的人脸。然而,我们只应考虑高质量的合成人脸,因为效果不好的合成人脸会损害人脸识别的性能。为此,我们提出了一种选择性微调策略(FT-Sel),该策略可以使用人脸质量分数自动选择高质量的合成人脸。图 2 可视化了合成和真实人脸的人脸质量分数,其中可以观察到两种人脸之间的显著差异。具有低面部质量分数(例如[0,0.2])的合成面部呈现强伪影。当分数增加时,尽管存在一些遮挡(例如[0.6,1.0]),但合成的人脸变得更逼真。相应的平均脸同时显示了更多细节。这意味着面部质量分数可以测量合成面部的质量。因此,可以选择具有更好面部质量的合成儿童面部来构建更平衡的训练数据,以进一步提高面部识别的性能。
图 2 合成人脸与真实人脸的质量分的可视化
评论
沙发等你来抢