论文摘要中说:

大型语言模型,通常要经过数十万个计算日的训练,已经在零样本和少样本学习方面表现出非凡的能力。考虑到计算成本,如果没有大量资金,很难复制这些模型。虽然有少数几个大模型可以通过 API 使用,但无法访问完整的模型权重,仍然很难研究。我们提出了OPT(Open Pre-trained Transformers),这是一套只有解码器的预训练Transformer模型,参数从1.25亿到1750亿。我们的目标是与感兴趣的研究人员充分和负责任地共享。 我们表明 OPT-175B 与 GPT-3 能力相当,但开发只需要 1/7 的碳足迹。 我们还将发布日志记录,详细说明我们面临的基础设施挑战,以及用于试验所有已发布模型的代码。

论文的一作Susan Zhang本科毕业于普林斯顿数学专业,曾在Unity和OpenAI任工程师,刚加入Facebook不到一年。

共同一作Stephen Roller博士毕业于UT Austin,目前是对话AI项目ParlAI的负责人。共同一作Naman Goyal佐治亚理工硕士毕业。

其中较小的碳足迹是通过结合Meta开源的 Fully Sharded Data Parallel (FSDP) API 与 NVIDIA Megatron-LM 中的张量并行抽象实现的。

最大1750亿模型仍然需要填表申请,不知道是否会对中国的用户有限制。较少的模型及其代码可以在GitHub上获取

值得一提的是,他们的研究非常重视透明度。训练过程的笔记日志记录都已经在GitHub上公开。

参考

内容中包含的图片若涉及版权问题,请及时与我们联系删除