Variational Best-of-N Alignment

2024年07月08日
  • 简介
    Best-of-N(BoN)是一种流行且有效的算法,用于将语言模型与人类偏好对齐。该算法的工作方式如下:在推理时,从语言模型中抽取N个样本,根据奖励模型判断,返回奖励最高的样本作为输出。尽管BoN非常有效,但它的计算成本很高,会将采样吞吐量降低N倍。为了在推理时使BoN更加高效,一个策略是微调语言模型,使其模仿BoN在推理期间的操作。为了实现这一点,我们推导出了BoN算法引导的分布。然后,我们建议微调语言模型以最小化向后KL散度到BoN分布。我们的方法类似于均场变分推断,因此我们将其称为变分BoN(vBoN)。如果这种微调成功,并且我们得到了一个很好的近似,那么我们已经将推理成本降低了N倍。我们在一个受控的生成任务上的实验表明,虽然变分BoN在对齐语言模型方面不如BoN有效,但在奖励和KL散度的Pareto前沿上,vBoN更常出现,与使用KL约束RL目标训练的模型相比,vBoN的性能接近于BoN。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在提高Best-of-N算法的推理效率,通过fine-tune语言模型来达到这个目标。
  • 关键思路
    提出了一种基于变分推理的算法,称为variational BoN(vBoN),通过最小化KL散度来优化语言模型,使其近似于BoN分布,从而减少推理成本。
  • 其它亮点
    实验结果表明,vBoN在奖励和KL散度的Pareto前沿上表现良好,比KL约束的RL目标训练的模型更接近BoN性能。需要进一步研究。
  • 相关研究
    相关研究包括Best-of-N算法及其应用,变分推理以及其他语言模型fine-tuning的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问