M-Prometheus: A Suite of Open Multilingual LLM Judges

向作者提问

NEW

简介

使用语言模型自动评估长篇文本（LLM-as-a-judge）正变得越来越普遍，但大多数 LLM 评判模型仅针对英语进行了优化，而提升其多语言评估能力的策略在现有文献中仍 largely 未被充分探索。这导致了非英语语言自动评估方法的质量存在显著差异，最终阻碍了具备更好多语言能力模型的发展。为弥合这一差距，我们提出了 M-Prometheus，这是一套开放权重的 LLM 评判模型，参数规模从 30 亿到 140 亿不等，能够对多语言输出提供直接评估和成对比较反馈。M-Prometheus 模型在涵盖 20 多种语言的多语言奖励基准测试中，以及涉及 4 种语言对的文学机器翻译（MT）评估中，均优于最先进的开源 LLM 评判模型。此外，在解码过程中利用 M-Prometheus 模型可以显著改进三种测试语言生成的输出结果，展示了其在开发更优秀的多语言模型方面的实用性。最后，通过广泛的消融实验，我们确定了获得有效多语言评判模型的关键因素，包括基础模型的选择，以及使用原生多语言反馈数据而非翻译数据进行训练。我们开源了我们的模型、训练数据集和代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决多语言文本自动评估中的质量不均衡问题，特别是当前大多数大语言模型（LLM）作为评估者时主要针对英语优化，而非英语语言的评估能力较弱。这是一个尚未被充分探索的问题，尤其是在提升多语言模型评价能力方面。
关键思路

关键思路是开发一个名为M-Prometheus的多语言评估模型套件，该模型通过直接评估和成对比较的方式提供反馈，并在训练过程中使用原生多语言数据而非翻译数据。相比现有研究，这种方法更注重利用多语言数据来增强模型的跨语言泛化能力，同时提供了从小到大不同参数规模的模型选择。
其它亮点

论文的主要亮点包括：1) M-Prometheus在超过20种语言的多语言奖励基准测试中表现优于现有的开源LLM评估模型；2) 在文学机器翻译评估中覆盖了4种语言对；3) 模型可以通过解码时的引导显著改善生成输出的质量；4) 提供了广泛的消融实验，揭示了有效多语言评估的关键因素，例如模型架构选择和数据来源；5) 所有模型、训练数据集和代码均已开源，为后续研究提供了良好的基础。
相关研究

相关研究包括：1) OpenAI的CLARA系列模型，专注于对话质量和多任务评估；2) Google的T5-PEFT，探讨了参数高效微调在多语言任务上的应用；3) Meta的Llama系列，尤其是Llama2-Eval，尝试改进多语言评估能力；4) 其他如FLAN系列模型，通过指令微调增强多语言性能。此外，还有一些专注于特定语言或领域的工作，例如XQE（Cross-Quality Estimation for MT），但这些方法通常局限于单一任务或较少的语言支持。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问