- 简介准确地对齐大型语言模型(LLMs)与人类偏好对于指导公平、经济有效和统计高效的决策过程至关重要。然而,我们认为通过奖励模型进行人类反馈的强化学习(RLHF)——对齐LLMs与人类偏好的主要方法——由于其基于Kullback-Leibler的正则化在优化中存在固有的算法偏差。在极端情况下,这种偏差可能导致我们所称的“偏好崩溃”现象,其中少数偏好被几乎忽视。为了缓解这种算法偏差,我们引入了偏好匹配(PM)RLHF,这是一种新颖的方法,可以证明在Bradley-Terry-Luce/Plackett-Luce模型下将LLMs与奖励模型的偏好分布对齐。我们方法的核心是一个PM正则化器,它采用LLM对响应的策略概率分布的负对数形式,帮助LLM平衡响应多样性和奖励最大化。值得注意的是,我们通过解决一个普通微分方程来获得这个正则化器,这对于PM属性是必要的。为了实现实际应用,我们引入了PM RLHF的条件变体,该变体专门针对自然语言生成。最后,我们通过对OPT-1.3B和Llama-2-7B模型进行实验,实验证明了条件PM RLHF的有效性,与标准RLHF相比,根据某个指标衡量,对人类偏好的对齐度提高了29%至41%。
- 图表
- 解决问题本论文旨在解决如何通过人类反馈来准确对齐大型语言模型(LLMs)与人类偏好的问题,并提出了一种新的方法来缓解强化学习从人类反馈中产生的算法偏差。
- 关键思路论文提出了一种称为Preference Matching (PM) RLHF的新方法,通过Bradley-Terry-Luce / Plackett-Luce模型对奖励模型的偏好分布进行对齐,使用PM正则化器帮助LLM平衡响应多样性和奖励最大化,这个正则化器是通过求解用于PM属性的常微分方程获得的。
- 其它亮点论文使用OPT-1.3B和Llama-2-7B数据集对提出的方法进行了实验验证,实验结果表明,与标准的RLHF相比,条件PM RLHF在人类偏好对齐方面有29%至41%的改进。此外,论文还提出了一种针对自然语言生成的条件PM RLHF。
- 近期的相关研究包括使用其他模型进行奖励函数建模的方法,如Gumbel-Softmax模型和基于对抗生成网络的方法。
沙发等你来抢
去评论
评论
沙发等你来抢