The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation

P Fernandes, D Deutsch, M Finkelstein, P Riley, A F. T. Martins, G Neubig, A Garg, J H. Clark, M Freitag, O Firat
[Google]

魔鬼就在错误中: 基于大型语言模型的细粒度机器翻译评估

要点:

  • 自动评价机器翻译质量一直是一个挑战,当前主流的自动评价指标通常只给出一个标量的质量分数,缺乏细粒度的错误分析。
  • 本文提出一种称为AUTOMQM的提示方法,利用大规模语言模型的推理和现场学习能力,让模型识别和分类翻译中的错误。
  • 实验证明,仅仅提示大规模语言模型预测质量分数可以取得状态的系统级评价效果,但段级别的相关性不如经微调的评价指标。
  • 通过提示AUTOMQM可以进一步提升语言模型的评价性能,生成的错误标注与人工标注具有可比性,尤其是大规模模型效果更好。
  • 优化提示是利用语言模型进行细粒度翻译评价的有效途径,未来工作将探索提示结合调优的方案。
  • 语言模型评价翻译的通用性质可扩展到其他语言生成任务的评价。
  • 整体而言,大规模语言模型配合少量标注数据作为自动指标具有巨大潜力。

动机:当前机器翻译自动评估的指标往往只提供单一的质量得分,缺乏详细的错误信息。因此,本文的动机是提出一种使用大型语言模型(LLM)的提示技术来识别和分类翻译中的错误,以填补这一缺口,并通过错误范围与人工标注对齐来提供可解释性的评估。
方法:本文使用大型语言模型(LLM)来评估机器翻译质量,通过提示技术要求模型识别和分类翻译中的错误,并使用多维质量度量(MQM)框架生成得分。同时,探索了在不同资源情况下,通过在上下文学习和微调中使用标注数据对模型进行评估的影响。
优势:本文的方法能生成丰富的错误反馈,与人工专家的MQM方法类似,相比只提供单一质量得分的指标具有更高的可解释性。同时,通过使用大型语言模型(LLM),能在不同资源情况下进行评估,并在较大模型上取得显著的性能提升。通过利用大型语言模型(LLM)的推理和上下文学习能力,提出一种提示技术AUTOMQM,用于识别和分类机器翻译中的错误,并生成可解释的多维质量度量(MQM)得分。

https://arxiv.org/abs/2308.07286 
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除