Looks can be Deceptive: Distinguishing Repetition Disfluency from Reduplication

2024年07月11日
  • 简介
    本文介绍了重复和叠词的不同用途。虽然它们在形式上相似,但是它们有不同的语言目的。叠词是一种有意识的形态学过程,用于表达语法、语义或语用细微差别,而重复则常常是无意的,表明有口吃或不流畅。本文利用计算语言学,对语音中的叠词和重复进行了首次大规模研究。我们介绍了一个新的公开可用的数据集IndicRedRep,其中包含用印地语、泰卢固语和马拉地语标注的叠词和重复的单词级别注释。我们使用Reparandum-Interregnum-Repair结构来区分这两种现象,评估了基于转换器的多类叠词和重复标记分类模型。我们的模型在印地语、泰卢固语和马拉地语的叠词-重复分类中,取得了85.62%、83.95%和84.82%的宏F1分数。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在通过计算语言学研究,解决红复和重复在语音中的区别和用途问题。同时,构建了一个包含印地语、泰卢固语和马拉地语文本的公共数据集IndicRedRep。
  • 关键思路
    论文使用transformer-based模型进行多类红复和重复标记分类,利用Reparandum-Interregnum-Repair结构来区分这两种现象。
  • 其它亮点
    论文使用了新的公共数据集IndicRedRep,并在印地语、泰卢固语和马拉地语中进行了实验。模型在红复-重复分类中的宏F1分数分别为:85.62%、83.95%和84.82%。论文的方法和数据集可以为语音识别和自然语言处理领域提供帮助。
  • 相关研究
    在这个领域中,最近的相关研究包括:《A survey of reduplication and repetition in natural language processing》、《Automatic detection of disfluencies in speech using deep neural networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问