dzNLP at NADI 2024 Shared Task: Multi-Classifier Ensemble with Weighted Voting and TF-IDF Features

2024年07月18日
  • 简介
    本文介绍了我们dzNLP团队在NADI 2024共享任务中对Subtask 1 - 多标签国家级方言识别(MLDID)(封闭赛道)的贡献。我们探索了各种配置来解决这个挑战:在实验1中,我们使用了不同n-gram值的n-gram分析器的并集(单词、字符、带有单词边界的字符);在实验2中,我们将各种权重的Term Frequency-Inverse Document Frequency(TF-IDF)特征组合成加权并集;在实验3中,我们使用了三个分类器:线性支持向量分类器(LSVC)、随机森林(RF)和K-最近邻(KNN),实现了一种加权多数投票方案。尽管我们的方法简单,依赖于传统的机器学习技术,但在F1分数和精确度方面表现出了竞争力。值得注意的是,我们在参赛团队中取得了最高的63.22%的精确度分数。然而,我们的总体F1分数约为21%,受到12.87%的低召回率的显著影响。这表明,尽管我们的模型高度精确,但在回忆广泛的方言标签方面遇到了困难,突显了处理多样化方言变体的关键领域需要改进。
  • 图表
  • 解决问题
    本文旨在解决NADI 2024共享任务中的Subtask 1 - 多标签国家级方言识别(MLDID)(封闭赛道)问题。该问题要求对来自不同国家的方言进行识别,具有挑战性。
  • 关键思路
    本文提出了三种不同的方法来解决MLDID问题:使用不同n-gram值的n-gram分析器的联合;将不同权重的TF-IDF特征进行加权联合;使用三种分类器的加权投票方案。虽然这些方法依赖于传统的机器学习技术,但在F1分数和精度方面表现出了竞争力。
  • 其它亮点
    本文的方法虽然简单,但在精度方面表现出色,取得了63.22%的最高精度分数。本文的实验设计合理,使用了多个数据集,并且开源了代码。然而,本文的召回率较低,需要改进。
  • 相关研究
    最近在多标签分类和方言识别领域中,有很多相关的研究。例如,论文《A Survey on Multi-Label Learning》和《Dialect Identification: A Survey of the State of the Art》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论