M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment

Proceedings of the 19th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications - Volume 2 VISAPP: VISAPP, 869-876, 2024 , Rome, Italy
2024年03月14日
  • 简介
    本文介绍了M&M模型,这是一种新颖的多模态多任务学习框架,应用于AVCAffe数据集的认知负荷评估(CLA)。M&M通过双通路架构独特地整合了视听线索,具有专门针对音频和视频输入的流。其关键创新在于跨模态多头注意机制,将不同的模态融合为同步多任务处理。另一个值得注意的特点是该模型的三个专门分支,每个分支都针对特定的认知负荷标签,实现了细致、任务特定的分析。虽然与AVCAffe的单任务基线相比表现一般,但M&M展示了一种有前途的综合多模态处理框架。这项工作为未来增强多模态多任务学习系统铺平了道路,强调了融合多种数据类型以处理复杂任务的重要性。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在通过提出一种新的多模态多任务学习框架M&M来解决认知负荷评估中的问题。
  • 关键思路
    M&M框架通过双通道架构,将音频和视频输入分别处理,并通过跨模态多头注意力机制将不同模态融合,实现同步多任务处理。此外,该模型还通过三个专门的分支,针对不同的认知负荷标签进行了细致的任务特定分析。
  • 其它亮点
    该论文的亮点包括:1.提出了一种新的多模态多任务学习框架M&M;2.使用了AVCAffe数据集进行实验,展示了M&M框架的潜力;3.通过三个专门的分支,实现了对不同认知负荷标签的细致分析。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:1. “Multimodal Deep Learning for Audio-Visual Speech Recognition”;2. “Multimodal sentiment analysis using neural networks: A survey”;3. “Multimodal Learning: A Survey and Taxonomy”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问