GitHub地址: https://github.com/yandex/YaLM-100B (才发布几天,已经有2400颗星了)
Yandex是俄罗斯搜索巨头,官方博客中这样介绍:
一年多来,我们一直在 Alice 语音助手和 Yandex 搜索中使用 YaLM 系列语言模型。 今天,我们将开源最大的 YaLM 模型,有1000亿个参数。我们花了 65 天的时间在 800 个 A100 显卡上和 1.7 TB 在线文本、书籍和无数其他资源上训练这一模型。我们在 GitHub 上发布了模型和有用的材料,采用 Apache 2.0 许可,允许研究和商业用途。它是目前世界上最大的可自由使用的英语 GPT 类神经网络。
博客中还非常良心地介绍了模型训练加速的很多经验,包括如何寻找瓶颈、使用快速数据类型、加速GPU上的操作、减少内存访问、禁用Dropout、通信、ZeRO优化器等等,推荐阅读。
训练细节可以参考: https://github.com/yandex/YaLM-100B/blob/main/README.md#training-details
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢