- 简介监督微调(SFT)和偏好优化(PO)是增强语言模型(LMs)能力的两个基本过程,用于在预训练后更好地与人类偏好相一致。尽管SFT在训练效率方面有所进展,但PO可以更好地对齐,因此它们经常被结合使用。然而,常见做法是将它们顺序应用,而不是整合它们的优化目标,忽略了框架差异的机会,也没有充分发挥它们的优势。为了获得统一的理解,我们将SFT和PO解释为两个子过程——偏好估计和转移优化——在马尔可夫决策过程(MDP)框架内定义。这种建模表明,SFT只是PO的一种特殊情况,估计和优化能力较差。PO评估模型生成答案的整体质量,而SFT仅根据目标答案中前面的标记对预测标记进行评分。因此,SFT高估了模型的能力,导致优化效果较差。基于这种观点,我们介绍了直观微调(IFT),将SFT和偏好优化整合为一个过程。IFT通过时间残差连接捕捉LM对整个答案的直觉感觉,但它仅依赖于单个策略和与SFT相同数量的未标记偏好数据。我们的实验表明,在几个任务中,特别是需要生成、推理和遵循事实的任务中,IFT的表现与顺序的SFT和一些典型的偏好优化方法相当甚至更优。一个可解释的Frozen Lake游戏进一步验证了IFT获取竞争策略的有效性。
-
- 图表
- 解决问题本文试图将Supervised Fine-Tuning(SFT)和Preference Optimization(PO)两种提升语言模型能力的方法结合起来,解决它们在实践中被顺序使用而忽略了彼此优势的问题。
- 关键思路本文提出Intuitive Fine-Tuning(IFT)方法,将SFT和PO融合成一个过程,通过引入时间残差连接来捕捉语言模型对整个答案的直觉感知,从而实现更好的优化。
- 其它亮点本文在多个任务上进行了实验,结果表明IFT在生成、推理和遵循事实的任务上表现出色。通过解释性的Frozen Lake游戏,进一步验证了IFT获取竞争策略的有效性。
- 近期相关研究包括:《Fine-Tuning Language Models from Human Preferences》、《Preference-based Policy Learning for Language Generation》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流