- 简介这项工作是Kallaama项目的一部分,其目标是为农业领域的语音技术开发制作和传播国家语言语料库。除了沃洛夫语之外,塞内加尔的国家语言在自然语言处理方面缺乏语言数据,这些语言在语言技术提供商中受到了广泛的忽视。然而,这些技术是保护、促进和教授这些语言的关键。Kallaama专注于塞内加尔人口使用的三种主要口语:沃洛夫语、普拉语和塞雷尔语。这些语言被广泛使用,塞内加尔本地人口约有1000万人口使用,更不用说国外的使用者了。然而,它们在机器可读数据方面仍然资源匮乏,这些数据可以用于自动处理和语言技术,特别是在农业领域。我们发布了一个包含125小时关于农业的录音的转录语音数据集,其中包括上述语言中的每一种。这些资源专门为自动语音识别目的而设计,包括传统方法。为了构建这样的技术,我们提供了沃洛夫语和普拉语的文本语料库,以及一个包含49,132个条目的沃洛夫语数据集的发音词典。
- 图表
- 解决问题解决问题:该论文旨在为塞内加尔的农业领域提供三种主要民族语言的语音数据集,以提高这些语言在语音技术方面的应用。这些语言的机器可读数据资源相对匮乏,该论文试图填补这一空白。
- 关键思路关键思路:论文提供了125小时的关于农业的语音数据集,分别为沃洛夫语、普拉语和瑟雷尔语,这些数据集是专为自动语音识别目的而设计的。此外,论文提供了沃洛夫语和普拉语的文本语料库以及一个包含49,132个条目的发音词典,这些资源可以用于自动处理和语言技术。
- 其它亮点其他亮点:该论文提供了针对农业的三种主要民族语言的语音数据集,这些语言在塞内加尔有约1000万的本地使用者。此外,论文提供了沃洛夫语和普拉语的文本语料库和发音词典,可以用于自动处理和语言技术。该论文的实验设计包括传统方法,数据集和代码也已开源。
- 相关研究:目前,语音技术领域中还没有太多关于塞内加尔民族语言的研究。但是,有一些关于其他非洲语言的研究,例如“非洲语言技术:现状和未来方向”和“非洲语言技术的机遇和挑战”。
沙发等你来抢
去评论
评论
沙发等你来抢