【论文标题】Language ID in the Wild: Unexpected Challenges on the Path to a Thousand-Language Web Text Corpus 【作者团队】Google Research 【发表时间】2020/10/29 【论文链接】https://arxiv.org/pdf/2010.15466.pdf 【论文代码】http://creativecommons.org/licenses/by/4.0/. 【推荐理由】论文分析了由n-gram模型缺陷、域不匹配、大量类不平衡、语言相似性和模型表达不足等原因所引发的各种错误模式,提出两类技术以减少错误:基于词列表的可调精度过滤器和基于Transformer的半监督LangID模型。
大文本语料库对于各种自然语言处理(NLP)任务越来越重要,而自动语言识别(LangID)是在多语言环境中收集此类数据集所需的核心技术。LangID在文献中基本上被解决了,据报道,在多达1366种语言上,模型平均达到超过90%的F1。作者对多达1629种语言的LangID模型进行了训练,这些语言的质量与我们的测试集相当,发现对于许多低资源语言,使用这些模型创建的web爬行文本语料库,人类判断的LangID精度只有5%左右,这表明需要更可靠的评估。进一步分析发现,由于领域不匹配、类不平衡、语言相似性和模型表达不足等原因,出现了各种各样的错误模式。我们提出了两类技术来减少这些错误:基于wordlist的可调精度过滤器(我们为其发布了大约500种语言的有组织列表)和基于转换器的半监督LangID模型,该模型可以将数据集的中值精度从5.5%提高到71.2%。这些技术使我们能够用500多种语言每种语言创建包含100K或更多相对简洁的句子的初始数据集,从而为创建1000种语言的web文本语料库铺平道路。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢