- 简介本文介绍了重复和叠词的不同用途。虽然它们在形式上相似,但是它们有不同的语言目的。叠词是一种有意识的形态学过程,用于表达语法、语义或语用细微差别,而重复则常常是无意的,表明有口吃或不流畅。本文利用计算语言学,对语音中的叠词和重复进行了首次大规模研究。我们介绍了一个新的公开可用的数据集IndicRedRep,其中包含用印地语、泰卢固语和马拉地语标注的叠词和重复的单词级别注释。我们使用Reparandum-Interregnum-Repair结构来区分这两种现象,评估了基于转换器的多类叠词和重复标记分类模型。我们的模型在印地语、泰卢固语和马拉地语的叠词-重复分类中,取得了85.62%、83.95%和84.82%的宏F1分数。
-
- 图表
- 解决问题本论文旨在通过计算语言学研究,解决红复和重复在语音中的区别和用途问题。同时,构建了一个包含印地语、泰卢固语和马拉地语文本的公共数据集IndicRedRep。
- 关键思路论文使用transformer-based模型进行多类红复和重复标记分类,利用Reparandum-Interregnum-Repair结构来区分这两种现象。
- 其它亮点论文使用了新的公共数据集IndicRedRep,并在印地语、泰卢固语和马拉地语中进行了实验。模型在红复-重复分类中的宏F1分数分别为:85.62%、83.95%和84.82%。论文的方法和数据集可以为语音识别和自然语言处理领域提供帮助。
- 在这个领域中,最近的相关研究包括:《A survey of reduplication and repetition in natural language processing》、《Automatic detection of disfluencies in speech using deep neural networks》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流