转自“七月在线”创始人兼CEO July 的CSDN博客。
本篇ChatGPT笔记会全力做到,通俗易懂且循序渐进(另,本文配图均来自文末的参考文献,可以认为是针对文末参考文献的学习笔记)
一方面,对于想了解ChatGPT背后原理和如何发展而来的,逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法,最后再到instructGPT、ChatGPT
且本文之前,99%的文章都不会把PPO算法从头推到尾,本文会把PPO从零推到尾,按照“RL-策略梯度-重要性采样(重要性权重)-增加基线(避免奖励总为正)-TRPO(加进KL散度约束)-PPO(解决TRPO计算量大的问题)”的顺序逐步介绍每一步推导
二方面,为彻底照顾初学者,本文会解释/说明清楚每一个公式甚至符号,包括推导过程中不省任何一个必要的中间推导步骤,以及必要的背景知识,十步推导绝不略成三步
目录
第一部分 从GPT/GPT2到GPT3:微调到prompt学习的过渡
1.1 GPT:基于Transformer Decoder预训练 + 微调/Finetune
1.2 GPT2承1启3:舍弃微调,直接干zero-short learning
1.3 GPT3:开启NLP新范式prompt从而实现小样本学习
1.4 GPT3.5:爆火ChatGPT所基于的GPT模型
第二部分 从RL、策略梯度到PPO算法、逆强化学习
2.1 入门强化学习所需掌握的基本概念
2.2 策略梯度与其两个问题:采样效率低下与步长难以确定
2.3 近端策略优化PPO:解决TRPO的计算量大的问题
2.4 从RL到逆强化学习:聊天对话等场景中不好定义reward
第三部分 instructGPT/ChatGPT的训练三阶段到多轮对话应用
3.1 InstructGPT训练三阶段
3.2 InstructGPT/ChatGPT:如何更好的构建多轮对话能力
文章最后的参考文献与推荐阅读也很有价值。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢