- 简介大多数语言模型的训练基于模仿学习,包括预训练、监督微调,以及对于人类反馈强化学习的起始条件的影响。最大似然估计(MLE)在下一个标记预测方面的简单性和可扩展性使其成为主导范式。然而,更广泛的模仿学习领域可以更有效地利用自回归生成背后的序列结构。我们专注于研究逆强化学习(IRL)对于模仿的视角,提取奖励并直接优化序列,而不是单个标记的可能性,并评估其对于微调大型语言模型的好处。我们提供了一个新的角度,将逆软Q学习重新表述为MLE的时间差分规则扩展。这创建了MLE和IRL之间的原则联系,并允许在监督微调(SFT)设置中权衡增加的复杂性和增加的性能和生成的多样性。我们发现IRL基于模仿具有明显的优势,特别是在保留多样性的同时最大化任务性能方面,在固定的SFT数据集上,即使没有在线数据生成,IRL也是一个强有力的替代方案。我们对IRL提取的奖励函数的分析进一步表明,通过更紧密地集成监督和基于偏好的LLM后训练,可以获得更强大的奖励函数的好处。
- 图表
- 解决问题本论文旨在探索逆强化学习(IRL)在语言模型训练中的应用,提出了一种基于IRL的模型微调方法,旨在提高生成序列的多样性和性能。
- 关键思路本文提出了一种基于IRL的模型微调方法,将序列的优化视为一种奖励函数的优化,从而实现了对序列整体结构的优化,提高了生成序列的多样性和性能。
- 其它亮点本文提出的基于IRL的模型微调方法在保证性能的同时,能够提高生成序列的多样性,是一种有效的模型微调方法。实验结果表明,该方法在固定的SFT数据集上具有明显的优势。此外,本文对IRL提取奖励函数的分析也为更加鲁棒的奖励函数提供了一定的指导。
- 在语言模型训练中,目前主要采用的是基于最大似然估计(MLE)的模型微调方法。与此相比,本文提出的基于IRL的模型微调方法具有更好的多样性和性能表现。
沙发等你来抢
去评论
评论
沙发等你来抢