- 简介本文介绍了一种新的数据集UQA,用于乌尔都语的问答和文本理解。乌尔都语是一种低资源语言,拥有超过7000万的母语使用者。UQA是通过一种称为EATS(Enclose to Anchor,Translate,Seek)的技术将Stanford Question Answering Dataset(SQuAD2.0)进行翻译生成的,这是一个大规模的英文问答数据集,该技术可以在翻译后的上下文段落中保留答案范围。本文描述了在两个候选模型中选择和评估最佳翻译模型的过程:Google Translator和Seamless M4T。本文还对UQA上的几种最先进的多语言问答模型进行了基准测试,包括mBERT、XLM-RoBERTa和mT5,并报告了有希望的结果。对于XLM-RoBERTa-XL,我们得到了85.99的F1分数和74.56的EM。UQA对于开发和测试乌尔都语的多语言NLP系统以及增强现有模型的跨语言可转移性是一种有价值的资源。此外,本文证明了EATS创建其他语言和领域高质量数据集的有效性。UQA数据集和代码可在www.github.com/sameearif/UQA上公开获得。
- 图表
- 解决问题这篇论文试图解决在乌尔都语这种低资源语言中进行问题回答和文本理解的问题。作者使用一种名为EATS的技术将英语QA数据集SQuAD2.0翻译成乌尔都语,保留了答案跨度。论文还试图验证EATS技术是否适用于其他语言和领域。
- 关键思路论文的关键思路是使用EATS技术将SQuAD2.0翻译成乌尔都语,保留答案跨度。论文还研究了两个翻译模型,并对多种多语言QA模型在UQA数据集上进行了基准测试。
- 其它亮点论文使用了EATS技术将SQuAD2.0翻译成乌尔都语,创造了一个新的UQA数据集。作者比较了两个翻译模型的性能,并对多种多语言QA模型在UQA数据集上进行了基准测试。实验结果表明,UQA数据集对于开发和测试乌尔都语的多语言NLP系统以及增强现有模型的跨语言可移植性非常有价值。论文还开源了UQA数据集和代码。
- 最近的相关研究包括使用多语言模型进行跨语言QA和使用不同技术生成低资源语言的QA数据集。
沙发等你来抢
去评论
评论
沙发等你来抢