【标题】RL with KL penalties is better viewed as Bayesian inference

【作者团队】Tomasz Korbak, Ethan Perez, Christopher L Buckley

【发表日期】2022.10.21

【论文链接】https://arxiv.org/pdf/2205.11275.pdf

【推荐理由】强化学习 (RL) 经常用于微调大型语言模型 (LM), RL 公式涉及将 LM 视为一项策略并对其进行更新以最大化捕获人类偏好的奖励函数的预期值。 本文分析了将语言模型视为 RL 策略相关的挑战,并展示了如何避免这些挑战需要超越 RL 范式。 作者首先观察到标准 RL 方法作为微调 LM 的目标存在缺陷,因为它会导致分布崩溃:将 LM 变成退化分布。 然后,分析了 KL 正则化 RL,这是一种广泛使用的微调 LM 的方法,它还限制微调后的 LM 在 Kullback-Leibler (KL) 散度方面保持接近其原始分布。 本文展示了 KL 正则化 RL 等价于变分推理:近似贝叶斯后验,它指定如何更新先验 LM 以符合奖励函数提供的证据。 这种 KL 正则化 RL 的贝叶斯推理视图比通常采用的 RL 观点更具洞察力。 贝叶斯推理视图解释了 KL 正则化 RL 如何避免分布崩溃问题并为其目标提供第一性原理推导。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除