Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant Features

简介

本文探讨了在EmotiW Challenge 2023中进行符合隐私的群体情绪识别，该识别是在自然环境中进行的。群体情绪识别在许多领域中都非常有用，包括社交机器人、对话代理、电子辅导和学习分析。本研究仅使用全局特征来实现，避免使用个体特征，即所有可用于在视频中识别或跟踪人员的特征（面部标记、身体姿势、音频分离等）。所提出的多模型模型由视频和音频分支组成，模态之间具有交叉注意力。视频分支基于微调的ViT架构。音频分支提取Mel频谱图，并通过CNN块馈送到变压器编码器中。我们的训练范式包括生成的合成数据集，以数据驱动的方式提高我们的模型对图像中面部表情的敏感度。广泛的实验显示了我们方法的重要性。我们的符合隐私的提议在EmotiW挑战赛中表现良好，最佳模型在验证集和测试集上的准确率分别为79.24％和75.13％。值得注意的是，我们的研究结果表明，仅使用视频中均匀分布的5帧，并使用符合隐私的特征，就可以达到这种准确性水平。
图表
解决问题

在EmotiW Challenge 2023中，论文试图解决隐私合规的群体情感识别问题。该问题在社交机器人、对话代理、电子辅导和学习分析等领域中具有实用价值。
关键思路

论文提出了一种隐私合规的多模态模型，使用全局特征而非个体特征进行情感识别。该模型包括视频和音频分支，并使用交叉注意力进行跨模态融合。视频分支基于经过微调的ViT架构，音频分支提取Mel频谱图并通过CNN块输入到Transformer编码器中。论文还使用生成的合成数据集来提高模型对图像中面部表情的敏感度。
其它亮点

论文的实验结果表明，该模型在EmotiW挑战赛中表现良好，最佳模型在验证集和测试集上的准确率分别为79.24％和75.13％。值得注意的是，该研究发现仅使用视频中均匀分布的5帧即可达到这个准确率水平。论文还开源了代码。
相关研究

最近的相关研究包括使用个体特征进行情感识别的方法，以及在隐私保护方面的研究，如使用差分隐私等技术。相关论文包括“Privacy-Preserving Facial Recognition via Adversarial Training”和“Differentially Private Multi-Task Learning”。

Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant Features

评论