- 简介高质量的机器翻译(MT)评估严重依赖于人类的判断。全面的错误分类方法,如多维质量度量(MQM),因为耗时且只能由专家完成,而专家的可用性可能会受到低资源语言的限制,因此成本较高。另一方面,仅分配总体分数,如直接评估(DA),更简单、更快速,可以由任何水平的翻译人员完成,但可靠性较低。在本文中,我们介绍了错误跨度注释(ESA),这是一种人类评估协议,将DA的连续评分与MQM的高级错误严重程度跨度标记相结合。我们通过比较12个MT系统和一个来自WMT23的人类参考翻译(英语到德语)的MQM和DA,验证了ESA。结果表明,ESA在相同的质量水平下比MQM提供更快、更便宜的注释,而无需昂贵的MQM专家。
- 图表
- 解决问题论文旨在解决机器翻译评估中人工标注时间和专业性的问题,提出一种新的评估协议ESA。
- 关键思路ESA将DA的整体评分和MQM的错误严重程度标注结合,既能快速节省标注时间,又能保证高质量的评估结果。
- 其它亮点论文使用WMT23数据集对ESA进行了验证,结果表明ESA在保证评估质量的同时,比MQM更快更便宜,不需要专业的MQM专家。
- 近期相关研究包括基于神经网络的机器翻译评估方法、基于人工智能的机器翻译评估方法等。
沙发等你来抢
去评论
评论
沙发等你来抢