OpenAI教GPT-3学会上网，「全知全能」的AI模型上线了

2020 年 5 月，OpenAI 上线具有 1750 亿参数的 GPT-3，这个大模型可谓功能强大，它使用的最大数据集在处理前容量达到了 45TB，不仅可以更好地答题、翻译、写文章，还带有一些数学计算的能力。这样强大的深度学习模型，不禁让人产生一种错觉：真正的 AI 要来了吗？

论文地址：https://cdn.openai.com/WebGPT.pdf

通过设置任务，OpenAI 能够使用模仿学习（imitation learning）在不同任务上训练模型，然后根据人类反馈优化答案质量。OpenAI 在 ELI5 上对模型进行了训练和评估，其中 ELI5 是一个由 Reddit 用户提问的问题集。

如此智能的模型是怎么实现的呢？

总体而言，OpenAI 对 GPT-3 模型家族的模型进行了微调，重点研究了具有 760M、13B 和 175B 参数的模型。从这些模型出发，OpenAI 使用了四种主要的训练方法：

行为克隆（Behavior cloning，BC）：OpenAI 使用监督学习对演示进行了微调，并将人类演示者发出的命令作为标签；
建模奖励（Reward modeling，RM）：从去掉 unembedding 层的 BC 模型开始，OpenAI 训练的模型可以接受带有引用的问题和答案，并输出标量奖励，奖励模型使用交叉熵损失进行训练；
强化学习（RL）：OpenAI 使用 Schulman 等人提出的 PPO 微调 BC 模型。对于环境奖励，OpenAI 在 episode 结束时获取奖励模型分数，并将其添加到每个 token 的 BC 模型的 KL 惩罚中，以减轻奖励模型的过度优化；
剔除抽样（best-of-n）：OpenAI 从 BC 模型或 RL 模型（如果未指定，则使用 BC 模型）中抽取固定数量的答案（4、16 或 64），并选择奖励模型排名最高的答案。

对于 BC、RM 和 RL，OpenAI 使用了相互不相交的问题集。总结来说，BC 中，OpenAI 保留了大约 4% 的演示作为验证集。RM 中，OpenAI 使用了不同大小模型（主要是 175B 模型）对比较数据集答案进行采样，使用不同方法和超参数的组合进行训练，并将它们组合成单个数据集。最终奖励模型经过大约 16,000 次比较的训练，其余 5,500 次用于评估。而 RL 中采用混合的方式，其中 90% 问题来自 ELI5，10% 问题来自 TriviaQA。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

OpenAI教GPT-3学会上网，「全知全能」的AI模型上线了

评论列表

评论