Self-Rewarding Language Models

Weizhe Yuan ,
Richard Yuanzhe Pang ,
Kyunghyun Cho ,
Sainbayar Sukhbaatar ,
Jing Xu ,
Jason Weston
1540
热度
NLP
AI
2024年01月18日
  • 简介
    我们认为,为了实现超级智能代理,未来的模型需要超级反馈来提供充分的训练信号。目前的方法通常从人类偏好中训练奖励模型,这可能会受到人类表现水平的瓶颈限制,其次,这些单独的冻结奖励模型在LLM训练期间无法学习改进。在这项工作中,我们研究了自我奖励语言模型,其中语言模型本身通过LLM作为评判提示来在训练期间提供自己的奖励。我们表明,在迭代DPO训练期间,不仅指令跟随能力得到了提高,而且提供高质量奖励的能力也得到了提高。通过我们方法的三次迭代对Llama 2 70B进行微调,得到了一个在AlpacaEval 2.0排行榜上超越了许多现有系统的模型,包括Claude 2、Gemini Pro和GPT-4 0613。虽然这只是一项初步研究,但这项工作为模型在两个方面不断改进的可能性打开了大门。
  • 图表
  • 解决问题
    论文旨在研究使用自我奖励的语言模型(Self-Rewarding Language Models)训练超级智能代理的可行性,以提供更好的训练信号。这个问题是否是一个新问题?
  • 关键思路
    使用LLM-as-a-Judge提示自我奖励的语言模型,可以在训练过程中提供高质量的奖励信号,从而提高指令遵循能力和自我奖励能力。通过三次迭代的DPO训练Fine-tuning Llama 2 70B,可以得到一个在AlpacaEval 2.0排行榜上表现优异的模型。
  • 其它亮点
    论文的亮点包括使用自我奖励的语言模型进行训练、提供高质量的奖励信号、在AlpacaEval 2.0排行榜上表现优异。实验使用了Fine-tuning Llama 2 70B模型和三次迭代的DPO训练。论文开放了代码,值得进一步研究。
  • 相关研究
    在这个领域中,最近的相关研究包括使用人类偏好训练奖励模型、使用强化学习训练语言模型等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论