- 简介世界上成千上万种语言正面临灭绝的威胁,这对文化身份和人类语言多样性构成了巨大的威胁。Interlinear Glossed Text (IGT) 是一种语言注释形式,可以支持这些语言社区的文献记录和资源创建。IGT 通常包括 (1) 转录,(2) 词汇分割,(3) 注释,和 (4) 对多数语言的自由翻译。我们提出了 Wav2Gloss: 一种从语音自动提取这四个注释组件的任务,并引入了第一个相关数据集 Fieldwork: 一个包含 37 种语言的语音语料库,具有标准格式和训练/开发/测试拆分,其中包含所有这些注释。我们比较了端到端和级联的 Wav2Gloss 方法,并分析表明预训练的解码器有助于翻译和注释,多任务和多语言方法表现不佳,尽管纯文本系统具有优势,但端到端系统表现比级联系统更好。我们提供了基准测试,为未来关于从语音生成 IGT 的研究奠定基础。
-
- 图表
- 解决问题Wav2Gloss:从语音中自动提取语言学注释的任务,以支持对濒危语言的文化保护和资源创建。
- 关键思路提出了一种从语音中自动提取语言学注释的方法,包括转录、形态分割、注释和翻译,并介绍了第一个相应的数据集Fieldwork。
- 其它亮点通过比较端到端和级联Wav2Gloss方法,分析表明预训练解码器有助于翻译和注释,多任务和多语言方法表现不佳,端到端系统比级联系统表现更好,提供了基准数据集,为未来的IGT生成研究奠定基础。
- 相关研究包括语音识别、语音翻译、多语言语音识别和语音分割等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流