- 简介动态面部表情识别(DFER)对于理解人类行为至关重要。然而,目前的方法由于高质量数据的稀缺、面部动态利用不足以及表情语义的歧义等原因,表现出有限的性能。为此,我们提出了一种新的框架,名为Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs(FineCLIPER),并融合了以下新颖的设计:1)为了更好地区分相似的面部表情,我们将类别标签扩展到从正面和负面两个方面的文本描述,并通过基于CLIP模型的跨模态相似度计算获得监督;2)我们的FineCLIPER采用分层方式,以有效地从DFE视频中挖掘有用的线索。具体而言,除了将视频帧直接嵌入输入(低语义级别)外,我们还提出了基于每个帧提取面部分割掩模和标记(中等语义级别),并利用多模态大型语言模型(MLLM)进一步使用设计好的提示生成跨帧面部变化的详细描述(高语义级别)。此外,我们还采用参数高效微调(PEFT)来实现对大型预训练模型(即CLIP)的有效适应。我们的FineCLIPER在DFEW、FERV39k和MAFW数据集上以有限的可调参数在有监督和零样本设置下均取得了SOTA性能。分析和消融研究进一步验证了其有效性。
-
- 图表
- 解决问题本论文旨在解决动态面部表情识别中数据质量不高、面部动态利用不足、表情语义模糊等问题,提出一种新的框架FineCLIPER。
- 关键思路FineCLIPER框架主要包括以下创新设计:1)将类别标签扩展为正负文本描述,通过基于CLIP模型的跨模态相似度计算获得监督;2)FineCLIPER采用分层方式从DFE视频中有效地挖掘有用线索,包括直接嵌入视频帧、提取每个帧的面部分割掩模和地标,以及利用MLLM生成面部变化的详细描述。此外,还采用PEFT实现对大型预训练模型(如CLIP)的高效适应。
- 其它亮点FineCLIPER在DFEW、FERV39k和MAFW数据集中以有监督和零样本设置取得SOTA性能,且参数少。论文还对其有效性进行了分析和消融研究。此外,论文还介绍了使用的数据集和实验设计,并提供了开源代码。
- 在动态面部表情识别领域,还有一些相关的研究,如《Deep Dynamic Facial Expression Recognition: A Survey》、《Dynamic Facial Expression Recognition: Recent Advances and Challenges》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流