- 简介动态生成模型通过迭代过程产生样本,例如流匹配和去噪扩散模型,已经得到广泛应用,但是在奖励微调方面,还没有很多理论上合理的方法。在这项工作中,我们将奖励微调视为随机最优控制(SOC)。关键是,我们证明了在微调过程中必须强制执行一种非常具体的无记忆噪声调度,以考虑噪声变量和生成的样本之间的依赖关系。我们还提出了一种名为Adjoint Matching的新算法,通过将SOC问题作为回归问题来实现,优于现有的SOC算法。我们发现,我们的方法显著改善了奖励微调的现有方法,在保留样本多样性的同时,实现了更好的一致性、真实性和对未见过的人类偏好奖励模型的泛化能力。
- 图表
- 解决问题本论文旨在解决动态生成模型在奖励微调方面的问题,提出了一种理论上可靠的方法。同时,论文还试图验证一种特定的无记忆噪声调度方案是否能够解决噪声变量和生成样本之间的依赖关系。
- 关键思路论文将奖励微调视为随机最优控制问题,并证明了必须强制执行一种特定的无记忆噪声调度方案,以解决噪声变量和生成样本之间的依赖关系。此外,论文提出了一种名为Adjoint Matching的新算法,将随机最优控制问题视为回归问题,优于现有的SOC算法。
- 其它亮点论文的实验结果表明,Adjoint Matching算法在奖励微调方面表现出更好的一致性、真实性和泛化性能。同时,论文的方法还保留了样本多样性。值得注意的是,论文使用了未见过的人类偏好奖励模型进行测试,并取得了显著的改进。论文还提供了开源代码。
- 近期在这个领域中,还有一些相关的研究,如PixelCNN和PixelRNN等。
沙发等你来抢
去评论
评论
沙发等你来抢