A New Massive Multilingual Dataset for High-Performance Language Technologies

简介

我们提供了HPLT（高性能语言技术）语言资源，这是一个新的大规模多语种数据集，包括从CommonCrawl和以前未使用的互联网档案库中提取的单语和双语语料库。我们描述了我们的数据获取、管理和处理大型语料库的方法，这些方法依赖于开源软件工具和高性能计算。我们的单语集合专注于低到中等资源的语言，涵盖了75种语言和总共约5.6万亿个单词标记，在文档级别上进行去重。我们的以英语为中心的平行语料库是从其单语对应物中派生出来的，涵盖了18种语言对和超过9600万个对齐的句子对，大约有14亿个英语标记。HPLT语言资源是迄今为止发布的最大的开放文本语料库之一，为语言建模和机器翻译培训提供了极好的资源。我们公开发布了这项工作中使用的语料库、软件和工具。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在提供一个新的大规模多语言数据集，包括单语和双语语料库，以帮助语言模型和机器翻译训练。
关键思路

该论文的关键思路是通过使用开源软件工具和高性能计算，从CommonCrawl和互联网档案馆中提取和处理大型语料库。
其它亮点

该数据集包括75种语言的单语语料库和18种语言对的平行语料库，是迄今为止发布的最大的开放文本语料库之一。论文公开了语料库、软件和工具，以促进进一步的研究。
相关研究

最近的相关研究还包括Facebook的M2M-100数据集和Google的T5数据集。

A New Massive Multilingual Dataset for High-Performance Language Technologies

提问交流

提问交流