- 简介几乎所有手动或自动机器翻译评估框架都用一个数字来描述MT输出的质量。 Multidimensional Quality Metrics(MQM)框架是一个例外,它提供了用于评分的质量维度的细粒度本体论,例如风格,流畅性,准确性和术语。以前的研究已经证明了MQM注释的可行性,但据我们所知,由于缺乏资源,没有计算模型可以预测新文本的MQM分数。在本文中,我们通过(a)为英韩语言对提供1200个句子的MQM评估基准,并(b)将MT评估重新定义为同时使用SOTA语言模型预测多个MQM分数的多任务问题,既在基于参考的MT评估设置中,也在基于参考的质量估计(QE)设置中解决了这些缺点。我们发现,在风格维度上,基于参考的模型保持优势,而基于参考的模型在准确性方面保持优势。总体而言,RemBERT是最有前途的模型。通过我们的评估,我们以更细粒度,可解释的方式提供了有关翻译质量的见解。
-
- 图表
- 解决问题本论文试图解决机器翻译评估中单一得分无法细致评估翻译质量的问题,提出使用Multidimensional Quality Metrics (MQM)框架进行多维度评估,并且尝试使用SOTA语言模型进行MQM得分的预测。
- 关键思路本论文的关键思路是使用MQM框架进行多维度评估,并且使用SOTA语言模型进行MQM得分的预测。相比当前领域的研究,本论文的新意在于MQM框架的使用和对MQM得分的预测。
- 其它亮点本论文提供了一个1200句英-韩语言对MQM评估基准,并且尝试使用SOTA语言模型进行MQM得分的预测。实验结果表明,在风格维度上,无参考评估优于有参考评估;在准确性方面,有参考评估优于无参考评估。最有前途的模型是RemBERT。本论文的亮点在于使用MQM框架进行多维度评估,并且尝试使用SOTA语言模型进行MQM得分的预测。
- 在最近的相关研究中,也有一些使用MQM框架进行多维度评估的工作,例如《Assessing Machine Translation Quality Using Multidimensional Quality Metrics and Structural Equation Modeling》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流