标题:HuggingFace|Datasets: A Community Library for Natural Language Processing(数据集:自然语言处理社区库)

简介:本文介绍了一个开源NLP资源库。公开可用的 NLP 数据集的规模、种类和数量随着研究人员提出了新的任务、更大的模型和新的基准。 数据集是一个旨在支持该生态系统的当代 NLP 社区图书馆。 数据集旨在标准化最终用户界面、版本控制和文档,同时提供一个轻量级前端,其行为类似于互联网规模的小型数据集语料库。数据库的设计结合了一种分布式的、社区驱动的方法来添加数据集和记录用法。经过一年的发展,该库现在包括650多个独特的数据集,有超过250个贡献者,以及帮助支持了各种新颖的跨数据集研究项目和共享任务。

代码下载:https://github.com/huggingface/datasets

论文下载:https://arxiv.org/pdf/2109.02846v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除