- 简介这篇摘要讲述了强化学习从人类反馈中学习(RLHF)是将大型语言模型(LLMs)与人类偏好对齐的主要范例。通常,RLHF包括从人类反馈中学习奖励模型的初始步骤,这种反馈通常表达为对由预训练LLM生成的文本生成对之间的偏好。随后,通过强化学习算法将LLM的策略微调为最大化奖励模型。然而,当前奖励模型的固有局限性在于其无法完全表示人类偏好的丰富性以及其对采样分布的依赖性。 本研究介绍了一种使用成对人类反馈微调LLMs的替代流程。我们的方法包括初始学习一个偏好模型,该模型在给定提示的情况下会对两个输入进行调整,随后追求一种策略,该策略始终生成优于任何竞争策略生成的响应,从而定义了该偏好模型的纳什均衡。我们将这种方法称为从人类反馈中的纳什学习(NLHF)。 在表格策略表示的情况下,我们提出了一种基于镜像下降原理的新算法解决方案,称为Nash-MD。该算法生成一系列策略,其中最后一次迭代收敛于正则化纳什均衡。此外,我们还探索了策略的参数表示,并引入了用于深度学习架构的梯度下降算法。为了证明我们的方法的有效性,我们展示了一个LLM针对文本摘要任务的微调实验结果。我们相信,NLHF为偏好学习和策略优化提供了一个引人注目的途径,有可能推动将LLMs与人类偏好对齐的领域的发展。
- 图表
- 解决问题本篇论文旨在解决大型语言模型(LLMs)与人类偏好不一致的问题,并提出了一种新的Fine-tuning方法。
- 关键思路论文提出了一种基于Nash学习的Fine-tuning方法,通过学习偏好模型并寻求一种策略,使得生成的回复优于任何竞争策略,从而定义偏好模型的Nash平衡。
- 其它亮点本文提出的Nash-MD算法可以产生一系列策略,并收敛到正则化的Nash平衡。实验结果表明,该方法在文本摘要任务Fine-tuning上表现出良好的效果。
- 最近的相关研究包括使用强化学习Fine-tuning LLMs的方法,以及使用人类反馈进行Fine-tuning的方法。
沙发等你来抢
去评论
评论
沙发等你来抢