BigScience是HuggingFace与法国国家科学研究中心(CNRS)下的两个高性能计算部门GENCI和IDRIS联合发起的项目,以开放科研研讨会(workshop)的形式组织。参与的单位还包括斯坦福大学、康奈尔大学、Mila、埃塞克斯大学、新加坡国立大学等科研机构,微软、IBM、Salesforce、Naver、Yandex等企业。
在 2021 年 5 月至 2022 年 5 月的一年时间里,来自 60 个国家和 250 多个机构的 1000 多名研究人员在巴黎附近的28 petaflops Jean Zay (IDRIS ) 超级计算机上一起创建多语言大模型和文本数据集。在研讨会期间,参与者从各个角度研究数据集和模型:偏见、社会影响、能力、限制、伦理、潜在改进、特定领域的表现、碳影响、一般人工智能/认知研究领域。研讨会期间收集的所有知识和信息都是公开的,可以在Notion访问。
项目页面上列出了328位参与的个人: https://huggingface.co/bigscience 。
来自项目博客:
凭借其 1760 亿个参数,BLOOM 能够生成 46 种自然语言和 13 种编程语言的文本。对于其中大部分语言模型,例如西班牙语、法语和阿拉伯语,BLOOM 将是第一个创建超过1000亿参数的语言模型。这是来自 70 多个国家和 250 多个机构的 1000 多名研究人员参与的一年工作的高潮,最终在法国巴黎南部的 Jean Zay 超级计算机上完成了 117 天(3 月 11 日至 7 月 6 日)BLOOM 模型的训练,感谢法国科研机构 CNRS 和 GENCI 提供的价值约 300 万欧元的计算资助。
研究人员现在可以下载、运行和研究 BLOOM,以研究最近开发的大型语言模型的性能和行为,直至其最深入的内部操作。更广泛地,任何同意模型的责任 AI 许可(在 BigScience 项目本身期间开发)条款的个人或机构都可以在本地机器或云提供商上使用和构建模型——因为它内嵌在HuggingFace的生态系统,使用起来非常简单,只需用 transformers 导入,用 accelerate 运行。本着这种协作和持续改进的精神,我们还首次发布了培训的中间检查点和优化器状态。没有 8 个 A100 可以玩?即使没有专门的硬件或工程人员也没关系,我们正在完成一个可大规模使用的推理 API。同时,对于快速测试、原型设计和小规模使用,你已经可以在 HF Hub上使用早期版本。
这仅仅是个开始。随着BigScience研讨会继续试验和调整模型,BLOOM 的能力将继续提高。我们已经开始努力使它像我们早期的 T0++ 工作一样具有指导性,并且计划添加更多语言,将模型压缩为具有相同性能水平的更可用版本,并将其用作更复杂架构的起点……研究人员和从业者一直想要的在1000亿参数模型进行科研实验,现在已经可能了。 BLOOM 是我们计划持续的一个活的模型系列的种子,而不仅仅是一个一次性的模型,我们准备支持社区努力扩展它。
参考
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢