A$^{3}$lign-DFER: Pioneering Comprehensive Dynamic Affective Alignment for Dynamic Facial Expression Recognition with CLIP

2024年03月07日
  • 简介
    CLIP在动态面部表情识别(DFER)任务中的表现并不像其他基于CLIP的分类任务那样出色。虽然CLIP的主要目标是在特征空间中实现图像和文本之间的对齐,但DFER由于文本的抽象性和视频的动态性而带来了挑战,使得标签表示受限且完美的对齐困难。为了解决这个问题,我们设计了A$^{3}$lign-DFER,引入了一种新的DFER标签范例,全面实现对齐,从而增强了CLIP在DFER任务中的适用性。具体而言,我们的A$^{3}$lign-DFER方法设计有多个模块,共同获取最适合分类的扩展维度嵌入,并在情感、动态和双向三个关键方面实现对齐。我们用可学习的多维对齐标记(MAT)替换输入标签文本,使文本能够在情感和动态维度上与面部表情视频样本对齐。在进行CLIP特征提取后,我们引入了联合动态对齐同步器(JAS),进一步促进了时间维度上的同步和对齐。此外,我们实现了双向对齐训练范例(BAP),以确保逐步稳定地训练两种模态的参数。我们深入而简洁的A$^{3}$lign-DFER方法在多个DFER数据集(包括DFEW、FERV39k和MAFW)上实现了最先进的结果。广泛的消融实验和可视化研究证明了A$^{3}$lign-DFER的有效性。该代码将在未来提供。
  • 图表
  • 解决问题
    本文旨在解决CLIP在动态面部表情识别(DFER)任务中表现不佳的问题,通过引入A$^{3}$lign-DFER方法,综合实现对齐,提高CLIP在DFER任务中的适用性。
  • 关键思路
    A$^{3}$lign-DFER方法包括多个模块,通过引入可学习的多维对齐令牌(MAT)实现文本到面部表情视频样本的对齐,在CLIP特征提取后引入联合动态对齐同步器(JAS)进一步实现时间维度的同步和对齐,以及实现双向对齐训练范式(BAP)以确保两种模态的参数逐步稳定训练,从而实现在情感、动态和双向三个关键方面的对齐,提高DFER的性能。
  • 其它亮点
    A$^{3}$lign-DFER方法在多个DFER数据集上实现了最先进的结果,包括DFEW、FERV39k和MAFW。通过大量的消融实验和可视化研究,证明了A$^{3}$lign-DFER的有效性。该方法的代码将在未来公开。
  • 相关研究
    相关研究包括基于深度学习的面部表情识别,以及基于自然语言处理的多模态学习。其中,基于深度学习的面部表情识别方法包括AffectNet、FER2013和CK+等;基于自然语言处理的多模态学习方法包括M3ER和M3ER+等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论