FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs

向作者提问

NEW

简介

动态面部表情识别（DFER）对于理解人类行为至关重要。然而，目前的方法由于高质量数据的稀缺、面部动态利用不足以及表情语义的歧义等原因，表现出有限的性能。为此，我们提出了一种新的框架，名为Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs（FineCLIPER），并融合了以下新颖的设计：1）为了更好地区分相似的面部表情，我们将类别标签扩展到从正面和负面两个方面的文本描述，并通过基于CLIP模型的跨模态相似度计算获得监督；2）我们的FineCLIPER采用分层方式，以有效地从DFE视频中挖掘有用的线索。具体而言，除了将视频帧直接嵌入输入（低语义级别）外，我们还提出了基于每个帧提取面部分割掩模和标记（中等语义级别），并利用多模态大型语言模型（MLLM）进一步使用设计好的提示生成跨帧面部变化的详细描述（高语义级别）。此外，我们还采用参数高效微调（PEFT）来实现对大型预训练模型（即CLIP）的有效适应。我们的FineCLIPER在DFEW、FERV39k和MAFW数据集上以有限的可调参数在有监督和零样本设置下均取得了SOTA性能。分析和消融研究进一步验证了其有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决动态面部表情识别中数据质量不高、面部动态利用不足、表情语义模糊等问题，提出一种新的框架FineCLIPER。
关键思路

FineCLIPER框架主要包括以下创新设计：1）将类别标签扩展为正负文本描述，通过基于CLIP模型的跨模态相似度计算获得监督；2）FineCLIPER采用分层方式从DFE视频中有效地挖掘有用线索，包括直接嵌入视频帧、提取每个帧的面部分割掩模和地标，以及利用MLLM生成面部变化的详细描述。此外，还采用PEFT实现对大型预训练模型（如CLIP）的高效适应。
其它亮点

FineCLIPER在DFEW、FERV39k和MAFW数据集中以有监督和零样本设置取得SOTA性能，且参数少。论文还对其有效性进行了分析和消融研究。此外，论文还介绍了使用的数据集和实验设计，并提供了开源代码。
相关研究

在动态面部表情识别领域，还有一些相关的研究，如《Deep Dynamic Facial Expression Recognition: A Survey》、《Dynamic Facial Expression Recognition: Recent Advances and Challenges》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问