- 简介大型语言模型(LLMs)的许多能力和安全技术,包括RLHF、自动红队测试、提示工程和填充,都可以被视为从由给定奖励或势函数定义的未归一化目标分布中进行采样。在本文中,我们利用顺序蒙特卡罗(SMC)的丰富工具箱来解决这些概率推断问题。特别地,我们使用学习的扭曲函数来估计每个时间步长的潜在价值的预期未来值,这使我们能够将推理时间计算集中在有前途的部分序列上。我们提出了一种新的对比方法来学习扭曲函数,并与软强化学习的丰富文献建立联系。作为我们扭曲的SMC框架的补充应用,我们提出了使用新的双向SMC界限来评估语言模型推断技术准确性的方法,这些界限可以用于估计推理和目标分布之间的KL散度。我们应用我们的推断评估技术来展示,扭曲的SMC对于从预训练模型中采样不良输出(有害性训练和自动化红队测试的有用组成部分)、生成具有不同情感的评论以及执行填充任务是有效的。
- 图表
- 解决问题该论文旨在解决大型语言模型中的潜在问题,如如何采样不良输出、生成具有不同情感的评论以及执行填充任务等。同时,它还提出了一种新的概率推断框架,即扭曲的顺序蒙特卡罗方法,用于解决这些问题。
- 关键思路论文的关键思路是使用学习的扭曲函数来估计每个时间步的潜在预期未来价值,从而使推断时间的计算集中在有前途的部分序列上。同时,论文还提出了一种新颖的对比学习方法来学习这些扭曲函数,并建立了与软强化学习丰富文献的联系。
- 其它亮点本文提出的扭曲顺序蒙特卡罗方法可以用于采样不良输出、生成具有不同情感的评论以及执行填充任务等。此外,论文还提出了一种新的双向蒙特卡罗边界来评估语言模型推断技术的准确性。该方法可以用于估计推断和目标分布之间的KL散度,并用于评估扭曲顺序蒙特卡罗方法的有效性。实验结果表明,该方法在各种任务上都取得了良好的效果。
- 最近在这个领域中,也有一些相关的研究,如GPT-3、XLNet、BERT等模型的改进和应用。
沙发等你来抢
去评论
评论
沙发等你来抢