TransEvalnia: Reasoning-based Evaluation and Ranking of Translations

2025年07月17日
  • 简介
    我们提出了TransEvalnia,这是一种基于提示的翻译评估与排序系统,它在执行评估和排序时运用了推理能力。该系统基于“多维质量指标”(https://themqm.org/)的一个子集提供细粒度的评估,不仅能判断哪个翻译为最佳,还能为各个维度以及整体翻译质量提供具体的评分。我们证明,在我们自己的英日语料以及多个WMT共享任务中的若干语言对上,TransEvalnia的表现等于或优于当前最先进的MT-Ranker系统(Moosa等人,2024年)。我们使用Anthropic公司的Claude-3.5-Sonnet和Qwen-2.5-72B-Instruct作为评估所用的大语言模型(LLM),结果显示,系统给出的评估结果在人类评分者看来具有高度可接受性;Sonnet及其他LLM模型为翻译结果分配的分数,也与人类评分者的打分高度一致。我们还注意到我们的系统以及MT-Ranker对翻译呈现顺序的敏感性,并提出了应对这种位置偏差的方法。所有数据,包括系统的评估与推理过程、人类评估结果以及代码均已公开发布。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决机器翻译评估的细粒度质量评估和排序问题,旨在提供一个基于推理的翻译评估系统,能够返回多维度评分并确定最佳翻译。这个问题在机器翻译领域是一个持续受到关注的问题,尤其是在自动评估与人类评估之间建立高度相关性方面。
  • 关键思路
    论文提出TransEvalnia,一个基于提示(prompting)的翻译评估与排序系统,利用大语言模型(LLM)进行推理评估。该系统基于多维度质量指标(MQM)的子集进行细粒度评估,并结合LLM生成评估结果。相比现有方法,其创新点在于将LLM的推理能力与传统翻译评估指标结合,实现更接近人类判断的自动评估。
  • 其它亮点
    1. 系统使用Anthropic的Claude-3.5-Sonnet和Qwen-2.5-72B-Instruct等LLM进行评估,结果显示其评分与人类评估高度相关 2. 实验涵盖英日翻译数据以及多个WMT共享任务的语言对,验证了系统在多语言环境下的有效性 3. 发现系统与MT-Ranker一样存在位置偏差(position bias),并提出缓解该问题的方法 4. 所有数据、评估结果、代码和人类评估结果均已开源,增强了研究的可复现性和实用性 5. 展示了不同LLM在翻译评估任务上的潜力,为后续研究提供了基准
  • 相关研究
    1. Moosa et al. (2024), MT-Ranker: A State-of-the-Art Translation Ranking System 2. Freitag et al. (2023), Quality Estimation as a Service: Real-Time Translation Evaluation 3. Lommel et al. (2022), Multidimensional Quality Metrics in Machine Translation Evaluation 4. Ma et al. (2023), BLEU is Not Enough: Towards Human-Centric Translation Evaluation 5. Wang et al. (2024), LLM-Based Translation Quality Prediction with Chain-of-Thought Reasoning
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问