英文原版:https://franxyao.github.io/blog.html
作者:符尧 yao.fu@ed.ac.uk – 爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学
与 彭昊,Tushar Khot在 艾伦人工智能研究院 (Allen Institute for AI) 共同完成英文原稿
与 剑桥大学 郭志江 共同翻译为中文
感谢 上海交通大学 何俊贤,加州大学洛杉矶分校 鲁盼,达特茅斯学院 刘睿博 对初稿的讨论与建议。
感谢 Raj Ammanabrolu (Allen Institute for AI), Peter Liu (Google Brain), Brendan Dolan-Gavitt (New York University), Denny Zhou (Google Brain) 对终稿的讨论和建议,他们的建议极大程度上增加了本文的完整度。
正文
最近,OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留下了深刻的印象和启发。毫无疑问,它又强又聪明,且跟它说话很好玩,还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。于是我们自然就有一个问题:ChatGPT 是怎么变得这么强的?它的各种强大的能力到底从何而来?在这篇文章中,我们试图剖析 ChatGPT 的突现能力(Emergent Ability),追溯这些能力的来源,希望能够给出一个全面的技术路线图,来说明 GPT-3.5 模型系列以及相关的大型语言模型是如何一步步进化成目前的强大形态。
我们希望这篇文章能够促进大型语言模型的透明度,成为开源社区共同努力复现 GPT-3.5 的路线图。
致国内的同胞们:
-
在国际学术界看来,ChatGPT / GPT-3.5 是一种划时代的产物,它与之前常见的语言模型 (Bert/ Bart/ T5) 的区别,几乎是导弹与弓箭的区别,一定要引起最高程度的重视。
-
在我跟国际同行的交流中,国际上的主流学术机构 (如斯坦福大学,伯克利加州大学) 和主流业界研究院(如谷歌大脑,微软研究院)都已经全面拥抱大模型。
-
在当前这个阶段,国内的技术水准,学术视野,治学理念和国际前沿的差距似乎并没有减少,反而正在扩大,如果现状持续下去,极有可能出现技术断代。
-
此诚危急存亡之秋。
多年以后,面对行刑队,奥雷里亚诺·布恩迪亚上校将会回想起父亲带他去见识冰块的那个遥远的下午。—— 《百年孤独》 加西亚·马尔克斯
01. 2020 版初代 GPT-3 与大规模预训练
初代GPT-3展示了三个重要能力:
-
语言生成:遵循提示词(prompt),然后生成补全提示词的句子。这也是今天人类与语言模型最普遍的交互方式。
-
上下文学习 (in-context learning): 遵循给定任务的几个示例,然后为新的测试用例生成解决方案。很重要的一点是,GPT-3虽然是个语言模型,但它的论文几乎没有谈到“语言建模” (language modeling) —— 作者将他们全部的写作精力都投入到了对上下文学习的愿景上,这才是 GPT-3的真正重点。
-
世界知识:包括事实性知识 (factual knowledge) 和常识 (commonsense)。
那么这些能力从何而来呢?
基本上,以上三种能力都来自于大规模预训练:在有3000亿单词的语料上预训练拥有1750亿参数的模型( 训练语料的60%来自于 2016 - 2019 的 C4 + 22% 来自于 WebText2 + 16% 来自于Books + 3%来自于Wikipedia)。其中:
-
语言生成的能力来自于语言建模的训练目标 (language modeling)。
-
世界知识来自 3000 亿单词的训练语料库(不然还能是哪儿呢)。
-
模型的 1750 亿参数是为了存储知识,Liang et al. (2022) 的文章进一步证明了这一点。他们的结论是,知识密集型任务的性能与模型大小息息相关。
-
上下文学习的能力来源及为什么上下文学习可以泛化,仍然难以溯源。 直觉上,这种能力可能来自于同一个任务的数据点在训练时按顺序排列在同一个 batch 中。然而,很少有人研究为什么语言模型预训练会促使上下文学习,以及为什么上下文学习的行为与微调 (fine-tuning) 如此不同。
令人好奇的是,初代的GPT-3有多强。其实比较难确定初代 GPT-3(在 OpenAI API 中被称为davinci
)到底是“强”还是“弱”。一方面,它合理地回应了某些特定的查询,并在许多数据集中达到了还不错的性能;另一方面,它在许多任务上的表现还不如 T5 这样的小模型(参见其原始论文)。在今天(2022 年 12 月)ChatGPT 的标准下,很难说初代的 GPT-3 是“智能的”。Meta 开源的 OPT 模型试图复现初代 GPT-3,但它的能力与当今的标准也形成了尖锐的对比。许多测试过 OPT 的人也认为与现在的 text-davinci-002
相比,该模型确实 “不咋地”。尽管如此,OPT 可能是初代 GPT-3 的一个足够好的开源的近似模型了(根据 OPT 论文和斯坦福大学的 HELM 评估)。
虽然初代的 GPT-3 可能表面上看起来很弱,但后来的实验证明,初代 GPT-3 有着非常强的潜力。这些潜力后来被代码训练、指令微调 (instruction tuning) 和基于人类反馈的强化学习 (reinforcement learning with human feedback, RLHF) 解锁,最终体展示出极为强大的突现能力。
02. 从 2020 版 GPT-3 到 2022 版 ChatGPT
从最初的 GPT-3 开始,为了展示 OpenAI 是如何发展到ChatGPT的,我们看一下 GPT-3.5 的进化树:
-
在2020 年 7 月,OpenAI 发布了模型索引为的
davinci
的初代 GPT-3 论文,从此它就开始不断进化。 -
在2021 年 7 月,Codex 的论文发布,其中初始的 Codex 是根据(可能是内部的)120 亿参数的 GPT-3 变体进行微调的。后来这个 120 亿参数的模型演变成 OpenAI API 中的
code-cushman-001
。 -
在2022 年 3 月,OpenAI 发布了指令微调 (instruction tuning) 的论文,其监督微调 (supervised instruction tuning) 的部分对应了
davinci-instruct-beta
和text-davinci-001
。 -
在2022 年 4 月至 7 月的,OpenAI 开始对
code-davinci-002
模型进行 Beta 测试,也称其为 Codex。然后text-davinci-002
、text-davinci-003
和ChatGPT
都是从code-davinci-002
进行指令微调得到的。详细信息请参阅 OpenAI的模型索引文档。
尽管 Codex 听着像是一个只管代码的模型,但 code-davinci-002
可能是最强大的针对自然语言的GPT-3.5 变体(优于 text-davinci-002
和 -003
)。code-davinci-002
很可能在文本和代码上都经过训练,然后根据指令进行调整(将在下面解释)。
然后2022 年 5-6 月发布的 text-davinci-002
是一个基于 code-davinci-002
的有监督指令微调 (supervised instruction tuned) 模型。在 text-davinci-002
上面进行指令微调很可能降低了模型的上下文学习能力,但是增强了模型的零样本能力(将在下面解释)。
然后是 text-davinci-003
和 ChatGPT
,它们都在2022 年 11 月发布,是使用的基于人类反馈的强化学习的版本指令微调 (instruction tuning with reinforcement learning from human feedback) 模型的两种不同变体。text-davinci-003
恢复了(但仍然比 code-davinci-002
差)一些在 text-davinci-002
中丢失的部分上下文学习能力(大概是因为它在微调的时候混入了语言建模) 并进一步改进了零样本能力(得益于RLHF)。另一方面,ChatGPT
似乎牺牲了几乎所有的上下文学习的能力来换取建模对话历史的能力。
总的来说,在 2020 - 2021 年期间,在 code-davinci-002
之前,OpenAI 已经投入了大量的精力通过代码训练和指令微调来增强GPT-3。当他们完成 code-davinci-002
时,所有的能力都已经存在了。很可能后续的指令微调,无论是通过有监督的版本还是强化学习的版本,都会做以下事情(稍后会详细说明):
-
指令微调不会为模型注入新的能力 —— 所有的能力都已经存在了。指令微调的作用是解锁 / 激发这些能力。这主要是因为指令微调的数据量比预训练数据量少几个数量级(基础的能力是通过预训练注入的)。
-
指令微调将 GPT-3.5 的分化到不同的技能树。有些更擅长上下文学习**,如
text-davinci-003
,有些更擅长对话,如ChatGPT
。 -
指令微调通过牺牲性能换取与人类的对齐(alignment)。OpenAI 的作者在他们的指令微调论文中称其为 “对齐税” (alignment tax)。许多论文都报道了
code-davinci-002
在基准测试中实现了最佳性能(但模型不一定符合人类期望)。在code-davinci-002
上进行指令微调后,模型可以生成更加符合人类期待的反馈(或者说模型与人类对齐),例如:零样本问答、生成安全和公正的对话回复、拒绝超出模型它知识范围的问题
更多细节跳转https://techbeat.net/article-info?id=4432
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢