- 简介本文介绍了FaceXformer,一种端到端的统一transformer模型,可用于包括面部解析、关键点检测、头部姿态估计、属性识别、年龄、性别、种族和关键点可见度估计等全面的面部分析任务。在面部分析中,传统方法通常依赖于特定任务的设计和预处理技术,这限制了它们的方法在统一架构下的应用。与这些传统方法不同,我们的FaceXformer利用了基于transformer的编码器-解码器架构,其中每个任务被视为可学习的token,从而实现了多个任务在单个框架内的集成。此外,我们提出了一个参数高效的解码器FaceX,它联合处理面部和任务token,从而学习跨不同任务的广义和鲁棒的面部表示。据我们所知,这是第一个使用transformer处理所有这些面部分析任务的单一模型。我们对统一面部任务处理的有效骨干进行了全面的分析,并评估了不同任务查询和它们之间的协同作用。我们在多个基准测试中进行了intra-dataset和cross-dataset的实验,与最先进的专门化模型和先前的多任务模型进行了比较。此外,我们的模型有效地处理了“in-the-wild”图像,展示了它在八个不同任务上的鲁棒性和普适性,同时保持了37 FPS的实时性能。
- 图表
- 解决问题论文旨在提出一种端到端的统一变压器模型,用于多种面部分析任务,包括面部分割、关键点检测、头部姿势估计、属性识别、年龄、性别、种族和关键点可见性的估计。
- 关键思路FaceXformer是一种基于变压器的编码器-解码器架构,其中每个任务被视为可学习的令牌,从而实现了多个任务的集成。此外,作者提出了一个参数高效的解码器FaceX,它可以联合处理面部和任务令牌,从而学习不同任务之间的泛化和稳健的面部表示。
- 其它亮点该模型在多个基准测试中进行了综合分析和评估,包括 intra-dataset 和 cross-dataset 评估。作者还展示了模型在“in-the-wild”图像上的鲁棒性和泛化性,并保持了37 FPS的实时性能。论文还提出了一些有效的骨干网络,以用于统一的面部任务处理。
- 最近的相关研究包括:《Facial Landmark Detection: A Survey》、《Facial Attribute Recognition: A Survey》、《Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢