Self-Rewarding Language Models

简介

我们认为，为了实现超级智能代理，未来的模型需要超级反馈来提供充分的训练信号。目前的方法通常从人类偏好中训练奖励模型，这可能会受到人类表现水平的瓶颈限制，其次，这些单独的冻结奖励模型在LLM训练期间无法学习改进。在这项工作中，我们研究了自我奖励语言模型，其中语言模型本身通过LLM作为评判提示来在训练期间提供自己的奖励。我们表明，在迭代DPO训练期间，不仅指令跟随能力得到了提高，而且提供高质量奖励的能力也得到了提高。通过我们方法的三次迭代对Llama 2 70B进行微调，得到了一个在AlpacaEval 2.0排行榜上超越了许多现有系统的模型，包括Claude 2、Gemini Pro和GPT-4 0613。虽然这只是一项初步研究，但这项工作为模型在两个方面不断改进的可能性打开了大门。
图表
解决问题

论文旨在研究使用自我奖励的语言模型（Self-Rewarding Language Models）训练超级智能代理的可行性，以提供更好的训练信号。这个问题是否是一个新问题？
关键思路

使用LLM-as-a-Judge提示自我奖励的语言模型，可以在训练过程中提供高质量的奖励信号，从而提高指令遵循能力和自我奖励能力。通过三次迭代的DPO训练Fine-tuning Llama 2 70B，可以得到一个在AlpacaEval 2.0排行榜上表现优异的模型。
其它亮点

论文的亮点包括使用自我奖励的语言模型进行训练、提供高质量的奖励信号、在AlpacaEval 2.0排行榜上表现优异。实验使用了Fine-tuning Llama 2 70B模型和三次迭代的DPO训练。论文开放了代码，值得进一步研究。
相关研究

在这个领域中，最近的相关研究包括使用人类偏好训练奖励模型、使用强化学习训练语言模型等。

评论