Compound Expression Recognition via Multi Model Ensemble for the ABAW7 Challenge

简介

本文主要介绍了复合表情识别（CER）对于有效的人际交往的重要性。由于复合表情的存在，人类的情感表达本质上是复杂的，需要考虑局部和全局面部线索才能进行准确的判断。本文提出了一种基于集成学习的解决方案来应对这种复杂性。我们的方法涉及使用卷积神经网络、视觉变换器和多尺度局部注意网络训练三个不同的表情分类模型。通过采用后期融合进行模型集成，我们将这些模型的输出组合起来预测最终结果。我们的方法在RAF-DB数据集上表现出高精度，并能够通过零样本学习识别C-EXPR-DB的某些部分的表情。
图表
解决问题

本论文旨在解决复合表情识别（CER）中的复杂性问题，提出了一种基于集成学习的解决方案。
关键思路

该方法使用卷积神经网络、视觉Transformer和多尺度局部注意力网络训练三个不同的表情分类模型，并通过后期融合将这些模型的输出组合起来以预测最终结果。
其它亮点

该方法在RAF-DB数据集上表现出高精度，并能够通过零样本学习在C-EXPR-DB的某些部分识别表情。该论文的亮点包括实验设计、数据集使用和代码开源等方面。
相关研究

最近在这个领域中的相关研究包括：'Facial Expression Recognition with Ensemble of Local and Global Features'、'Facial Expression Recognition via a Boosted Deep Belief Network'等。