- 简介评估大型语言模型(LLMs)的有效性存在着巨大的挑战。在在线聊天机器人竞技场中进行人工注释战斗的方法是一种高效的评估技术。然而,这种方法受到人工注释所需的成本和时间的限制。在本文中,我们介绍了一种创新的离线策略——竞技场学习(Arena Learning),它利用基于人工智能的注释来评估战斗结果,从而通过监督微调和强化学习促进目标模型的持续改进。竞技场学习包括两个关键要素。首先,它通过开发一个精心设计的离线测试集来精确预测各种模型的 Elo 排名,从而确保精确的评估和保持离线模拟和在线竞技之间的一致性。其次,它通过战斗结果和改进后的模型不断改进训练数据。我们建立了一个数据飞轮来通过突显目标模型的弱点,使其从多个不同模型的优点中学习,迭代更新训练数据。我们将竞技场学习应用于训练目标模型 WizardLM-$\beta$,并展示了各种指标的显著性能提升。这个完全自动化的训练和评估流程为后期训练各种LLMs奠定了基础。值得注意的是,竞技场学习在 WizardLM-2 的成功中起着关键作用,本文既是对其有效性的探索,也为未来与 WizardLM-2 及其衍生品相关的讨论奠定了基础。
- 图表
- 解决问题论文旨在解决评估大型语言模型(LLMs)效果的挑战,通过提出Arena Learning的离线策略,使用AI驱动的注释来模拟在线Chatbot Arena的战斗进行评估,以实现通过监督微调和强化学习不断改进目标模型的目的。
- 关键思路Arena Learning包含两个关键元素,第一个是通过WizardArena管道,使用精心设计的离线测试集准确预测各种模型的Elo排名,确保精确评估和保持离线模拟和在线比赛之间的一致性;第二个是基于战斗结果和精炼模型不断改进训练数据,通过数据飞轮迭代更新训练数据,使目标模型能够从多个不同模型的优点中学习。
- 其它亮点实验结果表明,WizardArena的预测与在线Arena的预测非常接近。Arena Learning通过自动化的训练和评估管道为后续的LLMs的不断进步奠定了基础。论文还介绍了使用Arena Learning训练目标模型WizardLM-$eta$的过程,并在各种指标上展示了显著的性能提升。
- 最近的相关研究包括使用人类注释的在线Chatbot Arena评估LLMs的方法,以及使用强化学习对LLMs进行改进的研究。
沙发等你来抢
去评论
评论
沙发等你来抢