核心技术是reinforcement learning from human feedback (RLHF)

具体过程是,用户发出的提示(prompt)指令,有标注者提供更多补充性引导信息,并对模型生成的结果排序,再用这个数据微调GPT-3。所得到的评分最高的模型称为InstructGPT,只有13亿参数。但标注者认为效果超越1750亿参数的GPT-3。不仅生成的问题内容少,而且更靠谱。

有意思的是,InstructGPT已经以beta版形式通过API提供给用户超过一年了,现在已经成为API背后的默认语言模型。

论文PDF:

https://cdn.openai.com/papers/Training_language_models_to_follow_instructions_with_human_feedback.pdf 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除