- 简介本文提出了一种利用视觉Transformer(ViT)来关注声谱图中频率(y轴)与时间(x轴)的相关性并通过知识转移在ViT之间传递位置信息,从而提高语音情感识别(SER)准确性的方法。该方法具有以下创新点:i)我们使用垂直分割的log-Mel声谱图块来分析频率随时间的相关性。这种类型的块允许我们将特定情感中最相关的频率与它们被发出的时间进行相关联。ii)我们提出了使用图像坐标编码,一种适用于ViT的绝对位置编码。通过将图像的x、y坐标归一化为-1到1并将它们连接到图像上,我们可以有效地为ViT提供有效的绝对位置信息。iii)通过特征映射匹配,将教师网络的局部性和位置信息有效传递给学生网络。教师网络是包含卷积干部的局部性和图像坐标编码的ViT,而学生网络是基本ViT结构中缺少位置编码的结构。在特征映射匹配阶段,我们通过平均绝对误差(L1损失)训练,以最小化两个网络之间特征映射之间的差异。为验证所提出的方法,将包含语音的三个情感数据集(SAVEE、EmoDB和CREMA-D)转换为log-Mel声谱图进行比较实验。实验结果表明,所提出的方法在加权准确性方面显著优于现有最先进方法,同时需要显著较少的浮点运算(FLOPs)。总的来说,所提出的方法为SER提供了一种有前途的解决方案,提高了效率和性能。
-
- 图表
- 解决问题本论文旨在提高语音情感识别(SER)的准确性,通过使用视觉变换器(ViT)来关注频谱图中频率(y轴)与时间(x轴)的相关性,并通过知识转移在ViT之间传递位置信息。
- 关键思路本文提出了使用垂直分割的log-Mel频谱图补丁来分析频率在时间上的相关性的方法。同时,使用图像坐标编码作为ViT的绝对位置编码,通过特征映射匹配将教师网络的位置信息有效地传输到学生网络中。
- 其它亮点本文通过实验验证了所提出方法的有效性。实验使用了三个情感数据集(SAVEE、EmoDB和CREMA-D)进行比较,结果表明,本文方法在加权准确性方面显著优于现有方法,同时需要的浮点运算次数(FLOPs)也更少。
- 在这个领域中,最近的相关研究包括使用深度学习方法进行情感识别,以及使用不同的特征提取技术来提高情感识别的准确性。相关论文包括:“A Deep Learning Approach to Emotion Recognition using Facial Expressions”和“Speech Emotion Recognition using Mel Frequency Cepstral Coefficient (MFCC) and Support Vector Machine (SVM) Classifier”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流