- 简介精调预训练大型语言模型(LLMs)是将它们与人类价值观和意图对齐的关键。这个过程通常使用诸如成对比较和KL散度等方法,针对模型生成的完整答案进行评估。然而,这些响应的生成是在标记级别上进行的,遵循顺序自回归的方式。本文介绍了一种新颖的方法——标记级别直接偏好优化(TDPO),通过在标记级别上优化策略,将LLMs与人类偏好对齐。与之前的方法不同,TDPO为每个标记引入了前向KL散度约束,提高了对齐性和多样性。利用Bradley-Terry模型实现标记级别的奖励系统,TDPO增强了KL散度的调节,同时保持了简单性,无需显式的奖励建模。在各种文本任务中的实验结果表明,TDPO在平衡对齐性和生成多样性方面具有更优秀的性能。值得注意的是,在控制情感生成和单轮对话数据集中,与DPO相比,使用TDPO进行精调可以取得更好的平衡,并且与基于PPO的RLHF方法相比,显著提高了生成响应的质量。我们的代码已在https://github.com/Vance0124/Token-level-Direct-Preference-Optimization开源。
- 图表
- 解决问题本论文试图通过优化策略的方式,在token级别上对预训练的LLMs进行微调,以使其更符合人类的价值和意图。与以往的方法相比,该论文的方法能够更好地平衡对齐性和生成多样性。
- 关键思路本论文提出了一种新颖的方法,即Token-level Direct Preference Optimization (TDPO),通过在每个token上引入前向KL散度约束,来优化策略。同时,本文采用Bradley-Terry模型作为基于token的奖励系统,以增强KL散度的调节能力,同时保持简单性。
- 其它亮点本论文的实验结果表明,与DPO和PPO-based RLHF方法相比,使用TDPO进行微调能够更好地平衡对齐性和生成多样性,并显著提高生成响应的质量。本文开源了代码,提供了多个数据集的实验结果。
- 与本文相关的研究包括以往的LLMs微调方法,如DPO和PPO-based RLHF方法,以及基于强化学习的方法。相关的论文包括《Improving Language Understanding by Generative Pre-Training》和《The Curious Case of Neural Text Degeneration》等。
沙发等你来抢
去评论
评论
沙发等你来抢