Is Context Helpful for Chat Translation Evaluation?

简介

尽管自动化度量翻译质量的方法最近取得了成功，但它们在评估机器翻译聊天质量方面的应用还受到限制。与新闻等更有结构的文本不同，聊天对话通常是非结构化的、短小的，并且严重依赖于上下文信息。这引发了对现有句子级度量在这个领域中可靠性以及上下文在评估翻译质量中的作用的质疑。在此背景下，我们对现有主要用于结构化领域（如新闻）的句子级自动度量进行元评估，以评估机器翻译聊天的质量。我们发现，相对于基于参考的度量，无参考度量在评估非英语环境下的翻译质量时落后。然后，我们研究了如何将对话上下文信息纳入这些度量中，以提高它们的性能。我们的研究结果表明，将神经学习的度量与上下文信息相结合有助于提高无参考情况下与人类判断的相关性，并且在评估非英语环境下的翻译时也有帮助。最后，我们提出了一种新的评估度量方法Context-MQM，它利用双语上下文和大型语言模型（LLM），并进一步验证添加上下文对基于LLM的评估度量也有帮助。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决机器翻译聊天记录质量评估的问题，尤其是在非英语背景下的问题。
关键思路

论文进行了元评估，发现参考自由的度量标准在聊天记录翻译质量评估方面表现不如参考标准的度量标准。同时，论文探讨了如何将对话上下文信息融入度量标准中以提高其性能，并提出了一种新的评估度量标准Context-MQM。
其它亮点

论文使用了不同的度量标准和数据集进行实验，发现融入上下文信息的度量标准在非英语背景下的机器翻译聊天记录质量评估中表现更好。论文提出的新评估度量标准Context-MQM也取得了不错的效果。
相关研究

在相关研究方面，论文提到了自动度量标准在机器翻译质量评估中的应用，以及如何将上下文信息融入机器翻译质量评估中的一些研究。

Is Context Helpful for Chat Translation Evaluation?

提问交流

提问交流