- 简介模型评估是成功模型开发的核心--作为训练的奖励模型,以及替代人类评估。为了训练这样的评估器,标准方法是收集大量人类偏好判断模型响应,这是昂贵的,并且随着模型的改进,数据变得陈旧。在这项工作中,我们提出了一种方法,旨在仅使用合成训练数据来改进评估器,而不需要人类注释。从未标记的指令开始,我们的迭代自我改进方案生成对比模型输出并训练LLM作为评判员来产生推理跟踪和最终判断,在每个新迭代中重复此训练,并使用改进的预测。没有任何标记的偏好数据,我们的自学评估器可以将强大的LLM(Llama3-70B-Instruct)从75.4提高到88.3(多数票为88.7)在RewardBench上。这优于通常使用的LLM评判员,如GPT-4,并与使用标记示例训练的最佳表现奖励模型的性能相匹配。
- 图表
- 解决问题使用合成数据自我训练评估器,以替代人类评估,提高模型评估的效率和准确性。
- 关键思路通过迭代的自我训练方法,使用合成数据训练Llama3-70B-Instruct模型作为评估器,无需人类标注数据即可提高评估器的准确性。
- 其它亮点论文提出了一种使用合成数据进行自我训练的方法,可以在无需人类标注数据的情况下提高评估器的准确性。实验结果表明,该方法可以将评估器的准确性从75.4提高到88.3(使用多数投票后提高到88.7),优于常用的LLM评估器,且与使用标注数据训练的模型表现相当。
- 相关研究包括使用强化学习进行模型评估、使用人类标注数据进行模型评估等。
沙发等你来抢
去评论
评论
沙发等你来抢