简介

🤗 Hugging Face x 🌸 BigScience 倡议,旨在创建 LAM 数据集的开源社区资源。

BigScience 🌸 是由来自 50 个国家和 250 个机构的近 600 名研究人员组成的开放式科学合作组织,他们在自然语言处理 (NLP) 领域内的各种项目上进行合作,以扩大语言数据集的可访问性,同时致力于解决有关训练语言模型的具有挑战性的科学问题。

我们正在运行一个数据集黑客马拉松,专注于制作来自图书馆、档案馆和博物馆 (LAMS) 的数据,并通过 Hugging Face Hub 访问潜在的机器学习应用程序。我们这样做是为了让这些数据集更容易被发现,向新的受众开放,并帮助确保机器学习数据集更密切地反映人类文化的丰富性。

目标

我们的目标是使用 Hugging Face 的 🤗 Datasets Hub 轻松发现和以编程方式访问这些数据集。作为其中的一部分,我们希望:

  1. 识别对更容易访问有用的数据集
  2. 通过数据集中心提供这些数据集
  3. 记录这些数据集

内容中包含的图片若涉及版权问题,请及时与我们联系删除