Transfer Q Star: Principled Decoding for LLM Alignment

2024年05月30日
  • 简介
    将基础模型对齐对于它们的安全和可信部署至关重要。然而,传统的微调方法计算密集且需要更新数十亿个模型参数。一种有前途的替代方案是通过解码进行对齐,直接调整响应分布而无需进行模型更新以最大化目标奖励$r$,从而提供了一种轻量级和适应性强的对齐框架。然而,基于原则的解码方法依赖于对最优Q函数($Q^*$)的oracle访问,这在实践中通常是不可用的。因此,先前的SoTA方法要么使用$Q^{\pi_{\texttt{sft}}}$(从参考$\texttt{SFT}$模型派生)来近似$Q^*$,要么依赖于短期奖励,导致解码性能次优。在这项工作中,我们提出了Transfer $Q^*$,通过与基准模型$\rho_{\texttt{BL}}$对齐基准奖励$\rho_{\texttt{BL}}$(可以与目标奖励$r$不同)来隐式地估计目标奖励$r$的最优值函数。Transfer $Q^*$的理论分析提供了对其最优性的严格刻画,导出了次优性差距的上界,并确定了一个超参数,以根据用户需求控制与预训练参考$\texttt{SFT}$模型的偏差。我们的方法显著减少了先前SoTA方法中观察到的次优性差距,并在几个合成和真实数据集上的广泛测试中展现了优越的经验性能,包括连贯性、多样性和质量等关键指标。
  • 图表
  • 解决问题
    论文旨在解决模型对齐的问题,提出一种轻量级、可适应的对齐方法,避免了传统微调方法的计算负担和更新模型参数的风险。
  • 关键思路
    论文提出了一种名为Transfer Q*的方法,通过基线模型和基线奖励来隐式估计目标奖励下的最优值函数。该方法在理论上得到了优化的证明,并通过实验在多个数据集上表现出优异的性能。
  • 其它亮点
    论文的实验设计充分,使用了多个合成和真实数据集进行测试,展示了Transfer Q*方法在连贯性、多样性和质量等关键指标上的优越表现。此外,论文还提出了一种控制偏差的超参数,并对其进行了分析。论文未公开代码。
  • 相关研究
    与此论文相关的研究包括利用SFT模型的Qπ方法和基于短期奖励的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论