Cascaded Cross-Modal Transformer for Audio-Textual Classification

2024年01月15日
  • 简介
    在语音分类任务中,通常需要强大的语言理解模型来捕捉有用的特征,但是当训练数据有限时,这就成为了一个问题。为了获得更好的分类性能,我们提出利用多模态表示的内在价值,通过自动语音识别(ASR)模型将语音转录成文本,并通过预训练的翻译模型将文本翻译成不同的语言。因此,我们为每个数据样本获得了一个音频-文本(多模态)表示。随后,我们通过一种新颖的级联跨模态变压器(CCMT),将语言特定的双向编码器变换器(BERT)与Wav2Vec2.0音频特征相结合。我们的模型基于两个级联变压器块。第一个块将不同语言的文本特定特征组合在一起,而第二个块将声学特征与先前由第一个变压器块学习的多语言特征相结合。我们在ACM Multimedia 2023计算语言学挑战赛的请求子挑战中应用了我们的系统。CCMT被宣布为获胜解决方案,分别获得了投诉检测和请求检测的无权重平均召回率(UAR)分别为65.41%和85.87%。此外,我们还将我们的框架应用于Speech Commands v2和HarperValleyBank对话数据集,超过了以前在这些基准测试上报告的结果。我们的代码可免费下载:https://github.com/ristea/ccmt。
  • 图表
  • 解决问题
    本文旨在解决语音分类任务中数据量不足导致语言理解模型性能下降的问题,提出了一种基于多模态表示的方法。
  • 关键思路
    使用自动语音识别模型将语音转录为文本,并通过预训练的翻译模型将文本翻译成不同的语言,从而获得每个数据样本的音频-文本(多模态)表示。然后通过一种新颖的级联跨模态变压器(CCMT)将语言特定的BERT和Wav2Vec2.0音频特征相结合,以实现更好的分类性能。
  • 其它亮点
    在ACM Multimedia 2023计算语言学挑战赛的请求子挑战中,CCMT被评为获胜解决方案,分别获得了65.41%和85.87%的投诉和请求检测的未加权平均召回率(UAR)。此外,作者还在Speech Commands v2和HarperValleyBank对话数据集上应用了该框架,并超过了以前的研究结果。作者已将代码开源。
  • 相关研究
    在这个领域中,最近的相关研究包括:1. "End-to-end Automatic Speech Recognition for Low-Resource Languages with Pretrained Transformers";2. "Multimodal Sentiment Analysis: Addressing Key Issues and Challenges";3. "Cross-Lingual Transfer Learning for End-to-End Speech Recognition"。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论