Can Automatic Metrics Assess High-Quality Translations?

简介

自动评估翻译质量的指标通常通过测量其与人类评估的相关性来验证。然而，相关性方法往往只能捕捉到指标区分好和坏的源文翻译对的能力，忽视了它们在区分同一源文的不同翻译中的可靠性。在本文中，我们证实了这一点，通过展示当前的指标对翻译质量微妙差异不敏感来证明。当质量高且替代方案之间的差异较小时，这种效应最为显著。鉴于这一发现，我们转向检测高质量的正确翻译，在实际决策场景中优先考虑正确性的二元检查而不是对质量的微妙评估。使用MQM框架作为黄金标准，我们系统地压力测试当前指标识别人类标记的无错误翻译的能力。我们的发现表明，当前的指标经常高估或低估翻译质量，表明自动评估方法有很大的改进空间。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决当前机器翻译质量评估方法的问题，即现有的自动评估指标主要关注好坏的区分度，忽略了同一源语言的多个翻译之间的差异性，导致对高质量翻译的评估不够准确。
关键思路

本文提出了一种基于MQM框架的评估方法，将翻译质量分为无错误和有错误两类，通过对当前自动评估指标在这个二分类任务上的表现进行测试，发现现有指标对高质量翻译的评估存在偏差，需要进一步改进。
其它亮点

本文通过实验验证了现有自动评估指标对高质量翻译的评估不够准确，提出了一种基于MQM框架的评估方法，并在多个数据集上进行了测试。本文的工作为进一步提高机器翻译质量评估的准确性提供了思路和方法。
相关研究

近期相关研究包括："A Study of Evaluation Metrics for Machine Translation"，"BLEU is Not Suitable for the Evaluation of Text Simplification"等。

Can Automatic Metrics Assess High-Quality Translations?

提问交流

提问交流