- 简介我们提供了HPLT(高性能语言技术)语言资源,这是一个新的大规模多语种数据集,包括从CommonCrawl和以前未使用的互联网档案库中提取的单语和双语语料库。我们描述了我们的数据获取、管理和处理大型语料库的方法,这些方法依赖于开源软件工具和高性能计算。我们的单语集合专注于低到中等资源的语言,涵盖了75种语言和总共约5.6万亿个单词标记,在文档级别上进行去重。我们的以英语为中心的平行语料库是从其单语对应物中派生出来的,涵盖了18种语言对和超过9600万个对齐的句子对,大约有14亿个英语标记。HPLT语言资源是迄今为止发布的最大的开放文本语料库之一,为语言建模和机器翻译培训提供了极好的资源。我们公开发布了这项工作中使用的语料库、软件和工具。
-
- 图表
- 解决问题该论文旨在提供一个新的大规模多语言数据集,包括单语和双语语料库,以帮助语言模型和机器翻译训练。
- 关键思路该论文的关键思路是通过使用开源软件工具和高性能计算,从CommonCrawl和互联网档案馆中提取和处理大型语料库。
- 其它亮点该数据集包括75种语言的单语语料库和18种语言对的平行语料库,是迄今为止发布的最大的开放文本语料库之一。论文公开了语料库、软件和工具,以促进进一步的研究。
- 最近的相关研究还包括Facebook的M2M-100数据集和Google的T5数据集。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流