- 简介我们介绍了Speech-MASSIVE,这是一个多语言口语理解(SLU)数据集,包括MASSIVE文本语料库的一部分语音对应部分。Speech-MASSIVE覆盖了来自不同语系的12种语言,并继承了MASSIVE的意图预测和槽填充任务的注释。我们扩展了这个数据集,是因为缺乏大规模多语言SLU数据集,需要多功能的语音数据集来评估跨语言和任务的基础模型(LLMs、语音编码器)。我们提供了一个多模态、多任务、多语言的数据集,并使用级联和端到端架构在各种训练场景(零样本、少样本和完全微调)中报告SLU基线。此外,我们展示了Speech-MASSIVE适用于基准测试其他任务,如语音转录、语言识别和语音翻译。该数据集、模型和代码可在以下链接公开获取:https://github.com/hlt-mt/Speech-MASSIVE。
- 图表
- 解决问题这篇论文旨在解决缺乏大规模多语言口语理解数据集的问题,以及需要多语言语音数据集来评估基础模型的需求。
- 关键思路论文提出了一个多模态、多任务、多语言的数据集Speech-MASSIVE,该数据集包含12种语言的语音数据和MASSIVE文本语料库的注释信息,并提供了使用级联和端到端架构的SLU基线结果。
- 其它亮点该数据集可以用于评估语音转录、语言识别和语音翻译等任务,论文提供了公开可用的数据集、模型和代码。
- 最近的相关研究包括多语言语音识别和多语言语音翻译,如《Multilingual Speech Recognition with a Single End-to-End Model》和《Massively Multilingual Speech Translation with a Streaming Dual-Attention Model》。
沙发等你来抢
去评论
评论
沙发等你来抢