Variational Best-of-N Alignment

简介

Best-of-N（BoN）是一种流行且有效的算法，用于将语言模型与人类偏好对齐。该算法的工作方式如下：在推理时，从语言模型中抽取N个样本，根据奖励模型判断，返回奖励最高的样本作为输出。尽管BoN非常有效，但它的计算成本很高，会将采样吞吐量降低N倍。为了在推理时使BoN更加高效，一个策略是微调语言模型，使其模仿BoN在推理期间的操作。为了实现这一点，我们推导出了BoN算法引导的分布。然后，我们建议微调语言模型以最小化向后KL散度到BoN分布。我们的方法类似于均场变分推断，因此我们将其称为变分BoN（vBoN）。如果这种微调成功，并且我们得到了一个很好的近似，那么我们已经将推理成本降低了N倍。我们在一个受控的生成任务上的实验表明，虽然变分BoN在对齐语言模型方面不如BoN有效，但在奖励和KL散度的Pareto前沿上，vBoN更常出现，与使用KL约束RL目标训练的模型相比，vBoN的性能接近于BoN。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提高Best-of-N算法的推理效率，通过fine-tune语言模型来达到这个目标。
关键思路

提出了一种基于变分推理的算法，称为variational BoN（vBoN），通过最小化KL散度来优化语言模型，使其近似于BoN分布，从而减少推理成本。
其它亮点

实验结果表明，vBoN在奖励和KL散度的Pareto前沿上表现良好，比KL约束的RL目标训练的模型更接近BoN性能。需要进一步研究。
相关研究

相关研究包括Best-of-N算法及其应用，变分推理以及其他语言模型fine-tuning的方法。

提问交流

提问交流