M-Prometheus: A Suite of Open Multilingual LLM Judges

2025年04月07日
  • 简介
    使用语言模型自动评估长篇文本(LLM-as-a-judge)正变得越来越普遍,但大多数 LLM 评判模型仅针对英语进行了优化,而提升其多语言评估能力的策略在现有文献中仍 largely 未被充分探索。这导致了非英语语言自动评估方法的质量存在显著差异,最终阻碍了具备更好多语言能力模型的发展。为弥合这一差距,我们提出了 M-Prometheus,这是一套开放权重的 LLM 评判模型,参数规模从 30 亿到 140 亿不等,能够对多语言输出提供直接评估和成对比较反馈。M-Prometheus 模型在涵盖 20 多种语言的多语言奖励基准测试中,以及涉及 4 种语言对的文学机器翻译(MT)评估中,均优于最先进的开源 LLM 评判模型。此外,在解码过程中利用 M-Prometheus 模型可以显著改进三种测试语言生成的输出结果,展示了其在开发更优秀的多语言模型方面的实用性。最后,通过广泛的消融实验,我们确定了获得有效多语言评判模型的关键因素,包括基础模型的选择,以及使用原生多语言反馈数据而非翻译数据进行训练。我们开源了我们的模型、训练数据集和代码。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决多语言文本自动评估中的质量不均衡问题,特别是当前大多数大语言模型(LLM)作为评估者时主要针对英语优化,而非英语语言的评估能力较弱。这是一个尚未被充分探索的问题,尤其是在提升多语言模型评价能力方面。
  • 关键思路
    关键思路是开发一个名为M-Prometheus的多语言评估模型套件,该模型通过直接评估和成对比较的方式提供反馈,并在训练过程中使用原生多语言数据而非翻译数据。相比现有研究,这种方法更注重利用多语言数据来增强模型的跨语言泛化能力,同时提供了从小到大不同参数规模的模型选择。
  • 其它亮点
    论文的主要亮点包括:1) M-Prometheus在超过20种语言的多语言奖励基准测试中表现优于现有的开源LLM评估模型;2) 在文学机器翻译评估中覆盖了4种语言对;3) 模型可以通过解码时的引导显著改善生成输出的质量;4) 提供了广泛的消融实验,揭示了有效多语言评估的关键因素,例如模型架构选择和数据来源;5) 所有模型、训练数据集和代码均已开源,为后续研究提供了良好的基础。
  • 相关研究
    相关研究包括:1) OpenAI的CLARA系列模型,专注于对话质量和多任务评估;2) Google的T5-PEFT,探讨了参数高效微调在多语言任务上的应用;3) Meta的Llama系列,尤其是Llama2-Eval,尝试改进多语言评估能力;4) 其他如FLAN系列模型,通过指令微调增强多语言性能。此外,还有一些专注于特定语言或领域的工作,例如XQE(Cross-Quality Estimation for MT),但这些方法通常局限于单一任务或较少的语言支持。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问