Wav2Gloss: Generating Interlinear Glossed Text from Speech

2024年03月19日
  • 简介
    世界上成千上万种语言正面临灭绝的威胁,这对文化身份和人类语言多样性构成了巨大的威胁。Interlinear Glossed Text (IGT) 是一种语言注释形式,可以支持这些语言社区的文献记录和资源创建。IGT 通常包括 (1) 转录,(2) 词汇分割,(3) 注释,和 (4) 对多数语言的自由翻译。我们提出了 Wav2Gloss: 一种从语音自动提取这四个注释组件的任务,并引入了第一个相关数据集 Fieldwork: 一个包含 37 种语言的语音语料库,具有标准格式和训练/开发/测试拆分,其中包含所有这些注释。我们比较了端到端和级联的 Wav2Gloss 方法,并分析表明预训练的解码器有助于翻译和注释,多任务和多语言方法表现不佳,尽管纯文本系统具有优势,但端到端系统表现比级联系统更好。我们提供了基准测试,为未来关于从语音生成 IGT 的研究奠定基础。
  • 作者讲解
  • 图表
  • 解决问题
    Wav2Gloss:从语音中自动提取语言学注释的任务,以支持对濒危语言的文化保护和资源创建。
  • 关键思路
    提出了一种从语音中自动提取语言学注释的方法,包括转录、形态分割、注释和翻译,并介绍了第一个相应的数据集Fieldwork。
  • 其它亮点
    通过比较端到端和级联Wav2Gloss方法,分析表明预训练解码器有助于翻译和注释,多任务和多语言方法表现不佳,端到端系统比级联系统表现更好,提供了基准数据集,为未来的IGT生成研究奠定基础。
  • 相关研究
    相关研究包括语音识别、语音翻译、多语言语音识别和语音分割等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问