IndicIRSuite: Multilingual Dataset and Neural Information Models for Indian Languages

2023年12月15日
  • 简介
    本文介绍了针对11种印度语言(阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语和泰卢固语)的神经信息检索资源,这些语言来自印度两个主要的语系(印欧语系和德拉维达语系)。这些资源包括(a)INDIC-MARCO,这是一个使用机器翻译创建的11种印度语言的多语言版本MSMARCO数据集,以及(b)Indic-ColBERT,这是11个不同的单语神经信息检索模型的集合,每个模型都是在INDIC-MARCO数据集中的一种语言上进行训练的。据我们所知,IndicIRSuite是首次尝试为大量印度语言构建大规模神经信息检索资源,我们希望它能够加速印度语言神经信息检索领域的研究。实验表明,Indic-ColBERT在除奥里亚语外的所有11种印度语言的MRR@10得分上平均提高了47.47%,在MIRACL孟加拉语和印地语基线的NDCG@10得分上平均提高了12.26%,在Mr.Tydi孟加拉语基线的MRR@100得分上提高了20%。IndicIRSuite可在https://github.com/saifulhaq95/IndicIRSuite上获得。
  • 图表
  • 解决问题
    IndicIRSuite试图为11种印度语言构建大规模神经信息检索资源,以加速印度语言神经信息检索领域的研究。
  • 关键思路
    该论文提出了两种资源:使用机器翻译创建的11种印度语言的多语言版本MSMARCO数据集INDIC-MARCO和11个单语言神经信息检索模型的集合Indic-ColBERT。这些资源的创新点在于它们是为印度语言构建的,可以加速该领域的研究。
  • 其它亮点
    论文进行了实验,结果表明Indic-ColBERT在11种印度语言中除了Oriya之外的所有INDIC-MARCO基线上的MRR@10分数平均提高了47.47%,在MIRACL孟加拉语和印地语语言基线上的NDCG@10分数平均提高了12.26%,在Mr.Tydi孟加拉语语言基线上的MRR@100分数提高了20%。IndicIRSuite可在GitHub上获得。
  • 相关研究
    最近在印度语言神经信息检索领域中,还有一些相关的研究,如“Cross-Lingual Information Retrieval using BERT for Indian Languages”和“Neural Ranking Models for Indian Languages”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论