Looks can be Deceptive: Distinguishing Repetition Disfluency from Reduplication

简介

本文介绍了重复和叠词的不同用途。虽然它们在形式上相似，但是它们有不同的语言目的。叠词是一种有意识的形态学过程，用于表达语法、语义或语用细微差别，而重复则常常是无意的，表明有口吃或不流畅。本文利用计算语言学，对语音中的叠词和重复进行了首次大规模研究。我们介绍了一个新的公开可用的数据集IndicRedRep，其中包含用印地语、泰卢固语和马拉地语标注的叠词和重复的单词级别注释。我们使用Reparandum-Interregnum-Repair结构来区分这两种现象，评估了基于转换器的多类叠词和重复标记分类模型。我们的模型在印地语、泰卢固语和马拉地语的叠词-重复分类中，取得了85.62%、83.95%和84.82%的宏F1分数。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过计算语言学研究，解决红复和重复在语音中的区别和用途问题。同时，构建了一个包含印地语、泰卢固语和马拉地语文本的公共数据集IndicRedRep。
关键思路

论文使用transformer-based模型进行多类红复和重复标记分类，利用Reparandum-Interregnum-Repair结构来区分这两种现象。
其它亮点

论文使用了新的公共数据集IndicRedRep，并在印地语、泰卢固语和马拉地语中进行了实验。模型在红复-重复分类中的宏F1分数分别为：85.62%、83.95%和84.82%。论文的方法和数据集可以为语音识别和自然语言处理领域提供帮助。
相关研究

在这个领域中，最近的相关研究包括：《A survey of reduplication and repetition in natural language processing》、《Automatic detection of disfluencies in speech using deep neural networks》等。

Looks can be Deceptive: Distinguishing Repetition Disfluency from Reduplication

提问交流

提问交流