Intuitive Fine-Tuning: Towards Unifying SFT and RLHF into a Single Process

2024年05月20日
  • 简介
    监督微调(SFT)和从人类反馈中进行强化学习(RLHF)是提高语言模型(LMs)能力的两个基本过程,使它们更好地符合人类偏好。虽然SFT在训练效率方面有所进展,但RLHF可以更好地对齐模型和人类的偏好。因此,它们经常被结合使用。然而,常见的做法是将它们顺序应用,而没有统一它们的优化目标,导致在适应不同目标之间进行权衡,忽略了弥合范式差距和从两者中获得优势的机会。为了获得统一的理解,我们使用在马尔可夫决策过程(MDP)框架内定义的标记级别的两个子过程--偏好估计和转换优化--来解释SFT和RLHF。这种建模表明,SFT只是RLHF的一个专业化案例,具有较差的估计和优化。RLHF评估模型生成答案的整体质量,而SFT仅基于目标答案的前面标记评分预测标记。因此,SFT高估了模型的能力,导致优化较差。基于这种观点,我们引入了直观微调(IFT)将SFT和RLHF集成为一个单一的过程。IFT通过时间残差连接捕捉LM对整个答案的直觉感知,同时使用单一策略和与SFT相同数量的非偏好标记数据。我们的实验表明,IFT在几个任务上表现相当甚至优于SFT和一些典型的对齐方法的顺序配方,特别是那些需要生成、推理和遵循事实的能力的任务。一个可解释的Frozen Lake游戏进一步验证了IFT的有效性。
  • 图表
  • 解决问题
    论文旨在解决后训练语言模型的能力提升问题,即如何更好地与人类偏好相匹配。当前常见的SFT和RLHF方法仅仅是顺序应用,没有统一的优化目标,导致无法充分发挥两者的优势。
  • 关键思路
    论文提出了Intuitive Fine-tuning (IFT)方法,将SFT和RLHF融合为一个过程。IFT通过时间残差连接捕捉语言模型对整个答案的直觉感知,同时使用单一策略和与SFT相同数量的非偏好标记数据。
  • 其它亮点
    论文使用MDP框架对SFT和RLHF进行了解释,发现SFT只是RLHF的一个特殊情况,而且评估和优化都不如RLHF。实验结果表明,IFT在多个任务上表现出与顺序SFT和一些典型对齐方法相当甚至更好的性能。
  • 相关研究
    最近的相关研究包括基于RL的语言模型优化方法,如PPO、A2C等,以及基于偏好的模型对齐方法,如MAPO、PPO+等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论