- 简介Best-of-N(BoN)是一种流行且有效的算法,用于将语言模型与人类偏好对齐。该算法的工作方式如下:在推理时,从语言模型中抽取N个样本,根据奖励模型判断,返回奖励最高的样本作为输出。尽管BoN非常有效,但它的计算成本很高,会将采样吞吐量降低N倍。为了在推理时使BoN更加高效,一个策略是微调语言模型,使其模仿BoN在推理期间的操作。为了实现这一点,我们推导出了BoN算法引导的分布。然后,我们建议微调语言模型以最小化向后KL散度到BoN分布。我们的方法类似于均场变分推断,因此我们将其称为变分BoN(vBoN)。如果这种微调成功,并且我们得到了一个很好的近似,那么我们已经将推理成本降低了N倍。我们在一个受控的生成任务上的实验表明,虽然变分BoN在对齐语言模型方面不如BoN有效,但在奖励和KL散度的Pareto前沿上,vBoN更常出现,与使用KL约束RL目标训练的模型相比,vBoN的性能接近于BoN。
-
- 图表
- 解决问题论文旨在提高Best-of-N算法的推理效率,通过fine-tune语言模型来达到这个目标。
- 关键思路提出了一种基于变分推理的算法,称为variational BoN(vBoN),通过最小化KL散度来优化语言模型,使其近似于BoN分布,从而减少推理成本。
- 其它亮点实验结果表明,vBoN在奖励和KL散度的Pareto前沿上表现良好,比KL约束的RL目标训练的模型更接近BoN性能。需要进一步研究。
- 相关研究包括Best-of-N算法及其应用,变分推理以及其他语言模型fine-tuning的方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流