Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge

2024年07月28日
  • 简介
    大型语言模型(LLMs)在许多领域中迅速超越了人类的知识水平。虽然改进这些模型通常依赖于昂贵的人工数据,但最近的自我奖励机制(Yuan等人,2024)表明,LLMs可以通过判断自己的响应而不是依赖于人类标注员来改进。然而,现有的方法主要集中于改进模型响应而不是判断能力,导致在迭代训练过程中迅速饱和。为了解决这个问题,我们引入了一个新的元奖励步骤到自我改进过程中,其中模型判断自己的判断并利用这个反馈来完善其判断技能。令人惊讶的是,这种无监督的方法提高了模型判断和遵循指令的能力,如在AlpacaEval 2上Llama-3-8B-Instruct的胜率从22.9%提高到39.4%,在Arena-Hard上从20.6%提高到29.1%。这些结果强烈表明了无需人类监督的自我改进模型的潜力。
  • 图表
  • 解决问题
    论文试图通过自我奖励机制改进大型语言模型的判断能力,提高其遵循指令的能力。
  • 关键思路
    论文提出了一种元奖励(Meta-Rewarding)的方法,让模型评估自己的判断能力,并使用反馈来改进其判断技能。
  • 其它亮点
    通过实验验证,这种自我奖励机制可以提高模型的判断能力和遵循指令的能力,而无需人类监督。实验使用了AlpacaEval 2和Arena-Hard数据集,并且展示了显著的提升。
  • 相关研究
    最近的相关研究主要集中在大型语言模型的自我奖励和自我监督方面,例如Yuan等人的工作。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论