- 简介本文描述了HSEmotion团队在第七届野外情感行为分析(ABAW)竞赛的两个任务中的结果,即多任务学习,同时预测面部表情、价值、唤醒和检测行动单元,以及复合表情识别。我们提出了一种基于预训练的多任务设置的帧级面部特征提取器的高效管道,以估计面部照片的价值-唤醒和基本面部表情。我们使用神经网络的轻量级架构(如MT-EmotiDDAMFN、MT-EmotiEffNet和MT-EmotiMobileFaceNet)确保我们的技术具有隐私意识,即使在移动设备上也可以运行,而不需要将面部视频发送到远程服务器。实验证明,提高整体准确率的一个重要步骤是使用高斯或盒形滤波器平滑神经网络输出得分。实验证明,从两个最佳视觉模型的简单混合开始,对预测进行这样的简单后处理,可以将面部表情识别的F1分数提高高达7%。同时,与每个模型的帧级预测相比,价值和唤醒的平均一致性相关系数(CCC)提高了1.25倍。因此,我们在多任务学习挑战的验证集上的最终性能得分比基线高出4.5倍(1.494与0.32相比)。
- 图表
- 解决问题本文旨在解决Affective Behavior Analysis in-the-wild (ABAW)竞赛中的两个任务:多任务学习,同时预测面部表情、价值、唤醒和检测动作单元;以及复合表情识别。是否是一个新问题?
- 关键思路本文提出了一种基于预先训练的多任务设置的帧级面部特征提取器的高效流程,以估计面部照片的价值唤醒和基本面部表情。使用轻量级神经网络架构,如MT-EmotiDDAMFN,MT-EmotiEffNet和MT-EmotiMobileFaceNet,确保了我们技术的隐私意识,这些网络甚至可以在移动设备上运行,无需将面部视频发送到远程服务器。通过使用高斯或盒式滤波器平滑神经网络输出分数,可以显著提高整体准确性。通过简单地混合两个顶级视觉模型的预测,实验证明了这种简单的后处理方法可以将面部表情识别的F1得分提高多达7%。同时,与每个模型的帧级预测相比,价值和唤醒的平均一致性相关系数(CCC)增加了多达1.25倍。最终,在多任务学习挑战的验证集上,我们的最终性能得分比基线高了4.5倍(1.494比0.32)。
- 其它亮点实验设计了高效的流程,使用了轻量级神经网络架构,保证了隐私意识。使用高斯或盒式滤波器平滑神经网络输出分数可以显著提高整体准确性。简单的混合两个顶级视觉模型的预测可以将面部表情识别的F1得分提高多达7%。价值和唤醒的平均一致性相关系数(CCC)增加了多达1.25倍。
- 最近在此领域中的相关研究包括:[1] Affective Behavior Analysis in-the-wild (ABAW) 2021 Emotion Recognition Sub-Challenge: Baseline and Challenge Winner Solutions; [2] Real-time Facial Expression Recognition on Mobile Devices with Deep Neural Networks; [3] Facial Expression Recognition with Deep Learning: A Survey。
沙发等你来抢
去评论
评论
沙发等你来抢