标题:日本国家信息和通信技术研究所|Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers(机器翻译研究的科学可信度:769 篇论文的元评估)

简介:本文介绍了机器翻译 (MT) 的首次大规模元评估。我们在2010-2020年发表的769篇研究论文中进行的带注释的MT评估。我们的研究表明,自动化的MT评估实践在过去十年中发生了巨大变化,并随之成为趋势。越来越多的MT评估完全依赖于BLEU分数得出结论,无需执行任何类型的统计显着性测试或人工评估,而至少108 项指标声称优于BLEU的方法已经提出。最近的MT评估论文倾向于自动复制和比较以前工作的度量分数来声明方法或算法的优越性,而没有确认是否使用了完全相同的训练、验证和测试数据,因为度量分数也不具有可比性。此外,在MT 社区中,报告标准化指标的工具分数还远没有被广泛采用。在展示了这些陷阱的累积如何导致可疑的评估,我们提出了一个指导方针来鼓励更好的自动MT评估以及一种简单的元评估评分方法来评估其可信度。

论文下载:https://arxiv.org/pdf/2106.15195v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除