Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process

简介

监督微调（SFT）和偏好优化（PO）是增强语言模型（LMs）能力的两个基本过程，用于在预训练后更好地与人类偏好相一致。尽管SFT在训练效率方面有所进展，但PO可以更好地对齐，因此它们经常被结合使用。然而，常见做法是将它们顺序应用，而不是整合它们的优化目标，忽略了框架差异的机会，也没有充分发挥它们的优势。为了获得统一的理解，我们将SFT和PO解释为两个子过程——偏好估计和转移优化——在马尔可夫决策过程（MDP）框架内定义。这种建模表明，SFT只是PO的一种特殊情况，估计和优化能力较差。PO评估模型生成答案的整体质量，而SFT仅根据目标答案中前面的标记对预测标记进行评分。因此，SFT高估了模型的能力，导致优化效果较差。基于这种观点，我们介绍了直观微调（IFT），将SFT和偏好优化整合为一个过程。IFT通过时间残差连接捕捉LM对整个答案的直觉感觉，但它仅依赖于单个策略和与SFT相同数量的未标记偏好数据。我们的实验表明，在几个任务中，特别是需要生成、推理和遵循事实的任务中，IFT的表现与顺序的SFT和一些典型的偏好优化方法相当甚至更优。一个可解释的Frozen Lake游戏进一步验证了IFT获取竞争策略的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图将Supervised Fine-Tuning（SFT）和Preference Optimization（PO）两种提升语言模型能力的方法结合起来，解决它们在实践中被顺序使用而忽略了彼此优势的问题。
关键思路

本文提出Intuitive Fine-Tuning（IFT）方法，将SFT和PO融合成一个过程，通过引入时间残差连接来捕捉语言模型对整个答案的直觉感知，从而实现更好的优化。
其它亮点

本文在多个任务上进行了实验，结果表明IFT在生成、推理和遵循事实的任务上表现出色。通过解释性的Frozen Lake游戏，进一步验证了IFT获取竞争策略的有效性。
相关研究

近期相关研究包括：《Fine-Tuning Language Models from Human Preferences》、《Preference-based Policy Learning for Language Generation》等。

Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process

提问交流

提问交流