Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer

2024年05月29日
  • 简介
    当前的面部表情识别(FER)模型通常采用监督学习方式设计,因此受到缺乏高质量注释的大规模面部表情图像的限制。因此,这些模型通常无法很好地推广,对训练中未见过的图像表现不佳。基于视觉语言的零样本模型展示了解决这些挑战的潜力。然而,这些模型缺乏任务特定的知识,因此不适用于识别面部表情的微妙之处。为了弥补这一差距,本文提出了一种新颖的方法Exp-CLIP,通过从大型语言模型(LLMs)中转移任务知识来增强零样本FER。具体来说,基于预训练的视觉语言编码器,我们加入了一个投影头,设计用于将初始的联合视觉语言空间映射到一个捕捉面部动作表示的空间中。为了训练这个投影头进行后续的零样本预测,我们建议将投影的视觉表示与从LLM编码器中导出的任务特定的语义意义对齐,并采用基于文本指令的策略来定制LLM知识。在给定未标记的面部数据和有效的投影头训练的情况下,Exp-CLIP在七个野外FER数据集上实现了优越的零样本结果,超过了CLIP模型和其他几个大型视觉语言模型(LVLMs)。代码和预训练模型可在\url{https://github.com/zengqunzhao/Exp-CLIP}上获取。
  • 图表
  • 解决问题
    本论文旨在解决当前面部表情识别模型在大规模数据上的泛化问题,提出了一种基于语言模型的零样本学习方法来增强面部表情识别的能力。
  • 关键思路
    论文的关键思路是将大型语言模型的任务知识迁移至面部表情识别模型中,通过自定义语言模型的知识来训练投影头,将初始联合视觉-语言空间映射到能够捕捉面部动作表示的空间中,从而提高零样本面部表情识别的准确率。
  • 其它亮点
    论文使用了七个实验数据集来验证提出的方法的有效性,并将结果与其他大型视觉-语言模型进行了比较。实验结果表明,该方法在零样本面部表情识别任务中表现出色。此外,论文还提供了开源代码和预训练模型。
  • 相关研究
    在相关研究方面,最近的一些工作主要集中在利用大型语言模型来增强视觉任务,如CLIP、ViLBERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论