- 简介RLHF(从人类反馈中进行强化学习)利用人类偏好数据训练语言模型,使其更加贴近人类本质。然而,这些人类偏好数据是在序列级别上标记的,导致序列级别偏好标签与词元之间存在不匹配,而词元是从语言模型中自回归生成的。虽然最近有几种方法尝试为每个词元提供词元级别(即密集型)奖励,但这些方法通常依赖于预定义的离散奖励值(例如,正向:+1,负向:-1,中性:0),未能考虑到每个词元固有偏好的不同程度。为了解决这个限制,我们引入了TLCR(词元级连续奖励)用于RLHF,它包含一个鉴别器,用于区分正面和负面词元,鉴别器的置信度用于考虑上下文为每个词元分配连续奖励。广泛的实验证明,我们提出的TLCR在开放式生成基准测试中相对于之前的序列级或词元级离散奖励具有一致的性能提升。
-
- 图表
- 解决问题论文旨在解决Reinforcement Learning from Human Feedback (RLHF)中标记的序列级别偏好数据与生成的令牌之间的不匹配问题,提出了TLCR (Token-Level Continuous Reward)方法,为每个令牌分配连续的奖励,以更好地训练语言模型。
- 关键思路TLCR方法包括训练一个判别器来区分正面和负面令牌,并使用判别器的置信度来分配连续奖励给每个令牌,考虑上下文。
- 其它亮点TLCR方法在开放式生成基准测试中表现出一致的性能提升,相比之前的序列级别或令牌级别离散奖励,具有更好的效果。实验使用了多个数据集,并且开源了代码。
- 近期的相关研究包括使用离散奖励的令牌级别方法和其他基于人类反馈的强化学习方法,如DAgger和Mimic等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流