Error Span Annotation: A Balanced Approach for Human Evaluation of Machine Translation

2024年06月17日
  • 简介
    高质量的机器翻译(MT)评估严重依赖于人类的判断。全面的错误分类方法,如多维质量度量(MQM),因为耗时且只能由专家完成,而专家的可用性可能会受到低资源语言的限制,因此成本较高。另一方面,仅分配总体分数,如直接评估(DA),更简单、更快速,可以由任何水平的翻译人员完成,但可靠性较低。在本文中,我们介绍了错误跨度注释(ESA),这是一种人类评估协议,将DA的连续评分与MQM的高级错误严重程度跨度标记相结合。我们通过比较12个MT系统和一个来自WMT23的人类参考翻译(英语到德语)的MQM和DA,验证了ESA。结果表明,ESA在相同的质量水平下比MQM提供更快、更便宜的注释,而无需昂贵的MQM专家。
  • 图表
  • 解决问题
    论文旨在解决机器翻译评估中人工标注时间和专业性的问题,提出一种新的评估协议ESA。
  • 关键思路
    ESA将DA的整体评分和MQM的错误严重程度标注结合,既能快速节省标注时间,又能保证高质量的评估结果。
  • 其它亮点
    论文使用WMT23数据集对ESA进行了验证,结果表明ESA在保证评估质量的同时,比MQM更快更便宜,不需要专业的MQM专家。
  • 相关研究
    近期相关研究包括基于神经网络的机器翻译评估方法、基于人工智能的机器翻译评估方法等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论