Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models

向作者提问

NEW

简介

最近，大规模多语言机器翻译系统的最新进展显著提高了翻译准确性。然而，即使是最好的系统仍会产生幻觉，严重影响用户信任。检测机器翻译中的幻觉仍然是一个关键挑战，特别是现有方法在高资源语言方面表现出色，但在低资源语言方面存在重大局限性。本文评估了使用大型语言模型和大规模多语言嵌入中的语义相似性进行幻觉检测的方法。我们的研究涵盖了16个语言方向，涵盖了具有不同语言文字的高资源语言和低资源语言。我们发现，模型的选择对性能至关重要。平均而言，在高资源语言方面，Llama3-70B的表现比之前的最新技术水平高出多达0.16 MCC（马修斯相关系数）。然而，在低资源语言方面，我们观察到Claude Sonnet平均比其他大型语言模型高出0.03 MCC。我们研究的关键要点是，尽管没有明确针对任何机器翻译任务进行训练，大型语言模型可以实现与以前提出的模型相当甚至更好的性能。然而，它们在低资源语言方面的优势不太明显。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何检测机器翻译中的幻觉问题是该论文试图解决的问题。该问题已经存在，但是现有方法在低资源语言方面的表现有限。
关键思路

该论文使用大型语言模型和巨大的多语言嵌入中的语义相似性来解决幻觉检测问题。该方法在高资源语言方面的表现优于以前的方法，但在低资源语言方面的优势较小。
其它亮点

该研究涵盖了16种语言方向，包括不同脚本的高资源语言和低资源语言。在高资源语言方面，Llama3-70B的表现优于以前的方法。在低资源语言方面，Claude Sonnet的表现最好。该论文提出的方法可以与以前的方法相媲美，甚至更好，尽管没有明确针对任何机器翻译任务进行训练。值得进一步研究的工作包括如何提高低资源语言的表现。
相关研究

最近的相关研究包括：'Unsupervised Detection of Hallucinated Content in State-of-the-Art Image Translation'，'Hallucination Detection in Machine Translation: A Deep Learning Approach'，'Detecting and Correcting Hallucinated Text in English-to-Urdu Neural Machine Translation'等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问