- 简介可解释的多模态情感识别(EMER)是一项新兴任务,旨在实现可靠和准确的情感识别。然而,由于注释成本高昂,现有数据集(称为EMER-Fine)规模较小,难以进行监督训练。为了降低注释成本并扩大数据集规模,本文回顾了先前的数据集构建过程。然后,我们简化了注释流程,避免了手动检查,并用开源模型替换了封闭源模型。最后,我们建立了EMER-Coarse,一个包含大规模样本的粗略标注数据集。除了数据集,我们提出了一个两阶段训练框架AffectGPT。第一阶段利用EMER-Coarse学习多模态输入和情感相关描述之间的粗略映射;第二阶段使用EMER-Fine更好地与手动检查结果对齐。实验结果表明,我们提出的方法在具有挑战性的EMER任务上是有效的。为了促进进一步的研究,我们将在https://github.com/zeroQiaoba/AffectGPT上提供代码和数据集。
- 图表
- 解决问题解决问题:论文试图通过构建新的数据集和提出新的训练框架来解决高昂的注释成本和小规模数据集的问题,以实现可靠和准确的多模态情感识别。
- 关键思路关键思路:论文提出了一个两阶段的训练框架AffectGPT,第一阶段使用EMER-Coarse学习多模态输入和情感相关描述之间的粗略映射,第二阶段使用EMER-Fine更好地与手动检查结果对齐。
- 其它亮点其他亮点:论文简化了注释流程,避免了手动检查,并使用开源模型代替闭源模型来降低注释成本和扩展数据集大小。作者构建了EMER-Coarse数据集,并在EMER任务上展示了AffectGPT的有效性。作者将代码和数据集开源。
- 相关研究:近期的相关研究包括:1. Multimodal Emotion Recognition using Deep Learning Approaches;2. Multimodal Emotion Recognition Based on Deep Learning: A Review;3. Multimodal Emotion Recognition with Multi-View Convolutional Neural Networks。
沙发等你来抢
去评论
评论
沙发等你来抢