多模态 | 面向情感识别的多模态端到端稀疏模型

【论文标题】 Multimodal End-to-End Sparse Model for Emotion Recognition 【作者团队】Wenliang Dai,Samuel Cahyawijaya,Zihan Liu,Pascale Fung 【机构】香港科技大学【发表时间】2021/03/17 【论文链接】https://arxiv.org/pdf/2103.09666.pdf 【推荐理由】本文对现有的多模态情感识别数据集进行重构，以实现端到端训练和基于原始数据的跨模态注意。现有的多模态情感计算任务，如情感识别，一般采用两阶段管道，首先用手工算法提取单个模态的特征表示，然后利用提取的特征进行端到端的学习。但是，所提取的特征是固定的，不能在不同的目标任务上进一步微调，而且手工查找特征提取算法不能很好地适用于不同的任务，可能导致性能欠佳。在本文中，我们开发了一个完整的端到端模型来连接这两个阶段并共同优化它们。此外，我们重构了当前的数据集，以实现完全的端到端训练。此外，为了减少端到端模型带来的计算开销，我们引入了一种稀疏的跨模态注意机制来进行特征提取。实验结果表明，我们的全端到端模型明显超过了目前基于两阶段管道的最先进模型。此外，通过添加稀疏的跨模态注意，我们的模型可以在特征提取部分的一半左右的计算量下保持性能

内容中包含的图片若涉及版权问题，请及时与我们联系删除

多模态 | 面向情感识别的多模态端到端稀疏模型

评论