TransEvalnia: Reasoning-based Evaluation and Ranking of Translations

向作者提问

NEW

简介

我们提出了TransEvalnia，这是一种基于提示的翻译评估与排序系统，它在执行评估和排序时运用了推理能力。该系统基于“多维质量指标”（https://themqm.org/）的一个子集提供细粒度的评估，不仅能判断哪个翻译为最佳，还能为各个维度以及整体翻译质量提供具体的评分。我们证明，在我们自己的英日语料以及多个WMT共享任务中的若干语言对上，TransEvalnia的表现等于或优于当前最先进的MT-Ranker系统（Moosa等人，2024年）。我们使用Anthropic公司的Claude-3.5-Sonnet和Qwen-2.5-72B-Instruct作为评估所用的大语言模型（LLM），结果显示，系统给出的评估结果在人类评分者看来具有高度可接受性；Sonnet及其他LLM模型为翻译结果分配的分数，也与人类评分者的打分高度一致。我们还注意到我们的系统以及MT-Ranker对翻译呈现顺序的敏感性，并提出了应对这种位置偏差的方法。所有数据，包括系统的评估与推理过程、人类评估结果以及代码均已公开发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决机器翻译评估的细粒度质量评估和排序问题，旨在提供一个基于推理的翻译评估系统，能够返回多维度评分并确定最佳翻译。这个问题在机器翻译领域是一个持续受到关注的问题，尤其是在自动评估与人类评估之间建立高度相关性方面。
关键思路

论文提出TransEvalnia，一个基于提示（prompting）的翻译评估与排序系统，利用大语言模型（LLM）进行推理评估。该系统基于多维度质量指标（MQM）的子集进行细粒度评估，并结合LLM生成评估结果。相比现有方法，其创新点在于将LLM的推理能力与传统翻译评估指标结合，实现更接近人类判断的自动评估。
其它亮点

1. 系统使用Anthropic的Claude-3.5-Sonnet和Qwen-2.5-72B-Instruct等LLM进行评估，结果显示其评分与人类评估高度相关 2. 实验涵盖英日翻译数据以及多个WMT共享任务的语言对，验证了系统在多语言环境下的有效性 3. 发现系统与MT-Ranker一样存在位置偏差（position bias），并提出缓解该问题的方法 4. 所有数据、评估结果、代码和人类评估结果均已开源，增强了研究的可复现性和实用性 5. 展示了不同LLM在翻译评估任务上的潜力，为后续研究提供了基准
相关研究

1. Moosa et al. (2024), MT-Ranker: A State-of-the-Art Translation Ranking System 2. Freitag et al. (2023), Quality Estimation as a Service: Real-Time Translation Evaluation 3. Lommel et al. (2022), Multidimensional Quality Metrics in Machine Translation Evaluation 4. Ma et al. (2023), BLEU is Not Enough: Towards Human-Centric Translation Evaluation 5. Wang et al. (2024), LLM-Based Translation Quality Prediction with Chain-of-Thought Reasoning

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问