Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition

向作者提问

NEW

简介

语音情感识别（SER）因其在人机交互、虚拟助手和心理健康辅助等各个领域的广泛应用而受到越来越多的关注。然而，现有的SER方法常常忽略了预训练语音识别任务和下游SER任务之间的信息差异，导致性能不佳。此外，当前的方法需要在每个特定的语音数据集（如IEMOCAP）上进行耗时的微调，这限制了它们在具有大规模嘈杂数据的实际场景中的有效性。为了解决这些问题，我们提出了一种基于主动学习（AL）的精调框架，称为\textsc{After}，它利用任务自适应预训练（TAPT）和AL方法来提高性能和效率。具体而言，我们首先使用TAPT来最小化预训练语音识别任务和下游语音情感识别任务之间的信息差异。然后，采用AL方法迭代地选择最具信息量和多样性的样本子集进行微调，从而减少时间消耗。实验表明，我们提出的方法\textsc{After}仅使用20\%的样本，就将准确率提高了8.45\%，时间消耗减少了79\%。\textsc{After}的附加扩展和消融研究进一步证实了其在各种实际场景中的有效性和适用性。我们的源代码可在Github上获取以进行再现。（https://github.com/Clearloveyuan/AFTER）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高语音情感识别（SER）的性能和效率，解决现有方法在预训练和下游任务之间的信息差异以及在大规模嘈杂数据下的效率问题。
关键思路

使用任务适应预训练（TAPT）和主动学习（AL）方法，提出了一种名为 extsc{After}的框架，用于增强SER的性能和效率。首先使用TAPT来最小化预训练语音识别任务和下游语音情感识别任务之间的信息差异。然后，使用AL方法迭代选择最具信息和多样性的样本进行微调，从而减少时间消耗。
其它亮点

实验结果表明，使用仅20％的样本， extsc{After}方法将准确性提高了8.45％，时间消耗降低了79％。此外，论文还讨论了 extsc{After}的扩展和消融研究，证明了其适用于各种实际场景。论文提供了开源代码。
相关研究

最近的相关研究包括：1）基于深度学习的SER方法，如使用卷积神经网络（CNN）和长短时记忆网络（LSTM）等；2）使用迁移学习和多任务学习来提高SER性能；3）使用主动学习方法来减少数据标注的需求。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问