Unimodal Multi-Task Fusion for Emotional Mimicry Intensity Prediction

简介

在这项研究中，我们介绍了一种新的方法来评估情感模仿强度（EMI），该方法是作为第六届“野外情感行为分析研讨会和竞赛”的一部分。我们的方法利用了Wav2Vec 2.0架构，该架构已经在广泛的播客数据集上进行了预训练，以捕获包括语言和语言外组成部分在内的广泛的音频特征。我们通过采用将个体特征与全局平均向量相结合的融合技术来改进我们的特征提取过程，从而将更广泛的上下文理解嵌入到我们的分析中。我们方法的一个关键方面是多任务融合策略，不仅利用这些特征，还整合了预先训练的价值-唤醒-支配（VAD）模型。这种集成旨在通过同时处理多个情感维度来提高情感强度预测，从而将更丰富的上下文理解嵌入到我们的框架中。对于音频数据的时间分析，我们的特征融合过程利用了长短时记忆（LSTM）网络。这种方法仅依赖于提供的音频数据，相比现有基线，取得了显著进展，为自然环境中情感模仿提供了更全面的理解，并在EMI挑战赛中获得了第二名。
图表
解决问题

本论文的问题是如何评估情感模仿强度（EMI）并在自然环境中研究情感模仿。这是一个新问题。
关键思路

论文的关键思路是使用Wav2Vec 2.0架构，结合多任务融合策略和LSTM网络，从提取的语言和语音特征中捕获情感模仿强度。
其它亮点

论文使用了Wav2Vec 2.0架构和多任务融合策略，结合LSTM网络进行情感模仿强度的评估。实验表明，该方法在自然环境中的情感模仿分析方面取得了显著进展，并在EMI挑战赛中获得了第二名。论文使用了公开数据集，并提供了开源代码。
相关研究

最近的相关研究包括使用深度学习方法进行情感分类和情感识别。例如，'Deep Learning for Emotion Recognition: A Survey'和'Emotion Recognition using Facial Landmarks, Python, DLib and OpenCV'等。

Unimodal Multi-Task Fusion for Emotional Mimicry Intensity Prediction

评论