GPT-4 vs. Human Translators: A Comprehensive Evaluation of Translation Quality Across Languages, Domains, and Expertise Levels

简介

本研究全面评估了大型语言模型（LLMs），特别是GPT-4在多个语言对和领域中与不同翻译专业水平的人类翻译员相比的翻译质量。通过精心设计的注释轮次，我们发现GPT-4在总错误数方面表现与初级翻译员相当，但落后于中级和高级翻译员。我们还观察到在不同语言和领域中的表现不平衡，GPT-4的翻译能力从资源丰富的方向逐渐减弱到资源贫乏的方向。此外，我们对GPT-4和人类翻译员的翻译进行了定性研究，发现GPT-4翻译员存在字面翻译的问题，但人类翻译员有时会过度思考背景信息。据我们所知，本研究是第一个评估LLMs与人类翻译员之间差异并分析其输出差异的系统性研究，为当前基于LLM的翻译及其潜在局限性提供了有价值的洞见。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在全面评估大型语言模型（LLMs），特别是GPT-4，与不同专业水平的人类翻译人员在多个语言对和领域中的翻译质量，并分析它们之间的差异。
关键思路

通过设计注释轮次，发现GPT-4在总错误方面表现与初级翻译人员相当，但落后于中高级翻译人员。此外，还发现GPT-4的翻译能力在不同语言和领域之间存在不平衡的表现。研究还通过定性分析发现，GPT-4的翻译存在字面翻译的问题，但人类翻译人员有时会过度思考背景信息。
其它亮点

该研究是第一次将LLMs与人类翻译人员进行比较，并分析它们之间的差异，为LLM翻译的当前状态及其潜在限制提供了有价值的见解。
相关研究

最近的相关研究包括使用神经机器翻译模型进行翻译，如Transformer模型和BERT模型。

GPT-4 vs. Human Translators: A Comprehensive Evaluation of Translation Quality Across Languages, Domains, and Expertise Levels

提问交流

提问交流