- 简介动态面部表情识别(DFER)对于理解人类行为至关重要。然而,目前的方法主要由于高质量数据的稀缺、面部动态利用不足以及表情语义的模糊性等原因表现出有限的性能。为此,我们提出了一种新的框架,称为Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs(FineCLIPER),其中包括以下创新设计:1)为了更好地区分相似的面部表情,我们将类标签扩展到从正面和负面两个方面的文本描述,并通过基于CLIP模型的跨模态相似性计算获得监督;2)我们的FineCLIPER采用分层方式,以有效地从DFE视频中挖掘有用的线索。具体而言,除了直接将视频帧嵌入输入(低语义级别)外,我们还提出基于每个帧提取面部分割掩模和地标(中等语义级别),并利用多模态大语言模型(MLLM)根据设计的提示进一步生成跨帧面部变化的详细描述(高语义级别)。此外,我们还采用参数有效微调(PEFT)来实现对大型预训练模型(即CLIP)在此任务中的高效适应。我们的FineCLIPER在DFEW、FERV39k和MAFW数据集上以有监督和零样本设置下均取得了SOTA性能,且可调参数较少。项目页面:https://haroldchen19.github.io/FineCLIPER-Page/
-
- 图表
- 解决问题本文旨在解决面部表情识别中数据稀缺、面部动态利用不足和表情语义模糊等问题,提出了一种新的框架FineCLIPER。
- 关键思路FineCLIPER采用多模态细粒度CLIP模型,通过扩展类别标签、采用分层方法、使用多模态大型语言模型和参数高效微调等方式来提高面部表情识别的性能。
- 其它亮点本文的亮点包括:1. 采用多模态细粒度CLIP模型,扩展类别标签,提高分类准确度;2. 采用分层方法,提取面部分割掩模和关键点,使用多模态大型语言模型生成面部变化的详细描述;3. 使用参数高效微调,提高大型预训练模型在该任务上的适应性;4. 在DFEW、FERV39k和MAFW数据集上实现了SOTA性能。
- 在该领域的相关研究包括:1. Multi-Task Learning for Facial Expression Recognition and Action Unit Detection;2. Facial Expression Recognition using Deep Learning: A Survey;3. A Survey on Facial Expression Recognition Techniques.
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流