Meta免费开放1750亿参数的大模型OPT-175B

论文摘要中说：

大型语言模型，通常要经过数十万个计算日的训练，已经在零样本和少样本学习方面表现出非凡的能力。考虑到计算成本，如果没有大量资金，很难复制这些模型。虽然有少数几个大模型可以通过 API 使用，但无法访问完整的模型权重，仍然很难研究。我们提出了OPT(Open Pre-trained Transformers)，这是一套只有解码器的预训练Transformer模型，参数从1.25亿到1750亿。我们的目标是与感兴趣的研究人员充分和负责任地共享。我们表明 OPT-175B 与 GPT-3 能力相当，但开发只需要 1/7 的碳足迹。我们还将发布日志记录，详细说明我们面临的基础设施挑战，以及用于试验所有已发布模型的代码。

论文的一作Susan Zhang本科毕业于普林斯顿数学专业，曾在Unity和OpenAI任工程师，刚加入Facebook不到一年。

共同一作Stephen Roller博士毕业于UT Austin，目前是对话AI项目ParlAI的负责人。共同一作Naman Goyal佐治亚理工硕士毕业。

其中较小的碳足迹是通过结合Meta开源的 Fully Sharded Data Parallel (FSDP) API 与 NVIDIA Megatron-LM 中的张量并行抽象实现的。

最大1750亿模型仍然需要填表申请，不知道是否会对中国的用户有限制。较少的模型及其代码可以在GitHub上获取。

值得一提的是，他们的研究非常重视透明度。训练过程的笔记和日志记录都已经在GitHub上公开。

参考

Meta的博客
Reddit上的讨论

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Meta免费开放1750亿参数的大模型OPT-175B

参考

评论