Estimating the Level of Dialectness Predicts Interannotator Agreement in Multi-dialect Arabic Datasets

2024年05月18日
  • 简介
    在注释多方言阿拉伯语数据集时,通常会将样本随机分配给一组母语为阿拉伯语的人。最近的分析建议将方言样本路由到其各自方言的母语者以构建更高质量的数据集。然而,自动识别样本的方言是困难的。此外,母语为特定阿拉伯语方言的注释者池可能很少。阿拉伯语方言级别(ALDi)是一种最近引入的定量变量,用于衡量句子与标准阿拉伯语的偏离程度。在将样本随机分配给注释者的情况下,我们假设具有更高ALDi分数的样本更难标记,特别是如果它们是用注释者不懂的方言书写的。我们通过分析15个公共数据集上各个样本的原始注释来测试这一假设,这些数据集用于各种句子分类任务。我们发现有11个数据集的强有力证据支持我们的假设。因此,我们建议优先将高ALDi分数的样本路由到每个样本方言的母语者,其中方言可以以更高的准确性自动识别。
  • 图表
  • 解决问题
    论文旨在解决多方言阿拉伯语数据集的标注问题,即如何将样本分配给相应方言的母语者进行标注。同时,论文提出了ALDi作为一种定量变量,用于衡量句子与标准阿拉伯语的差异程度,并探究了高ALDi分数样本的标注难度是否与标注者是否为该方言的母语者有关。
  • 关键思路
    论文的关键思路是使用ALDi作为样本方言程度的定量变量,并将高ALDi分数的样本优先分配给相应方言的母语者进行标注,从而提高数据集的质量。
  • 其它亮点
    论文使用了15个公共数据集进行实验,并发现了11个数据集支持论文的假设。实验结果表明,将高ALDi分数的样本分配给相应方言的母语者进行标注可以提高标注质量。此外,论文提出的ALDi方法可以用于自动识别样本的方言程度,为数据集标注提供更多可能性。
  • 相关研究
    在相关研究方面,最近的研究集中于阿拉伯语方言的识别和语音识别。例如,文章《Towards Arabic Dialect Identification》和《A Review of Arabic Dialect Identification》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论