Missingness-resilient Video-enhanced Multimodal Disfluency Detection

2024年06月11日
  • 简介
    大多数现有的言语不流畅检测技术只依赖于声学数据。在这项工作中,我们提出了一种实用的多模式言语不流畅检测方法,利用可用的视频数据和音频数据。我们创建了一个音视频数据集,并提出了一种新颖的融合技术,使用统一的权重共享模态不可知编码器来学习时间和语义上下文。我们的弹性设计适应了现实世界的情况,其中在推理过程中视频模态有时可能会缺失。当两种模态始终可用时,我们还提出了替代融合策略。在五个言语不流畅检测任务的实验中,我们的统一多模态方法显著优于仅使用音频的单模态方法,即使在一半的样本中缺少视频模态时,也能获得7%的平均绝对改进(即提高10个百分点)。
  • 图表
  • 解决问题
    论文旨在提出一种多模态的语音错乱检测方法,利用音频和视频数据,解决现有技术只依赖声学数据的问题。
  • 关键思路
    论文提出了一种新的融合技术,使用统一的权重共享模态无关编码器来学习时间和语义上下文,并设计了鲁棒性较强的模型来应对视频模态缺失的情况。
  • 其它亮点
    论文使用自己构建的音视频数据集,在五个任务上进行了实验,结果表明,与仅使用音频的单模态方法相比,使用多模态方法可以显著提高检测准确率,平均绝对提高了10%。作者还探讨了多种融合策略,并提供了开源代码。
  • 相关研究
    最近的相关研究包括:'Multimodal Disfluency Detection Using Visual and Acoustic Features'、'Multimodal Fusion for Speech Disfluency Detection'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论