The Translation Barrier Hypothesis: Multilingual Generation with Large Language Models Suffers from Implicit Translation Failure

向作者提问

NEW

简介

通过大型语言模型（LLMs）进行多语言生成时，中等至低资源语言的生成质量往往较差。受可解释性研究的启发，我们发现生成过程中存在一个隐含的“任务求解→翻译”流水线机制，即模型首先以基本与目标语言无关的方式完成所需任务，然后将答案概念翻译成预期的目标语言。我们假设翻译阶段的失败是导致最终输出质量低下的一个重要原因，并将其形式化为“翻译障碍假说”。为了验证这一假说，我们在108种语言对上进行了词汇翻译任务，并利用logit lens技术观察模型在中间层的处理过程。我们发现，相当一部分整体失败确实源于翻译失败，即模型无法将正确求解的中间概念准确翻译为目标语言，尤其在目标语言为低资源语言时更为明显。我们的研究结果揭示了端到端多语言生成面临的一个重要障碍，并为未来旨在提升LLMs多语言能力的研究提供了方向性的启示。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大语言模型（LLMs）在中低资源语言的多语言生成质量较差的问题，并验证“翻译障碍假说”（translation barrier hypothesis），即模型虽然能够以目标语言无关的方式正确理解任务，但在将中间概念准确翻译为目标语言时存在显著失败。
关键思路

作者提出了一种基于可解释性分析的方法，观察模型在处理多语言生成任务时是否存在一个隐式的“任务求解→翻译”的流程。通过使用logit lens技术，他们在模型的中间层进行观测，验证了翻译阶段确实是导致最终输出质量下降的重要原因，尤其是在低资源语言上。
其它亮点

1. 提出了“翻译障碍假说”，并设计实验进行验证 2. 使用logit lens技术观察模型内部处理过程，实证分析翻译阶段的失败比例 3. 实验涵盖108个语言对，具有广泛性和代表性 4. 结果表明低资源语言的翻译失败尤为严重，为未来改进多语言模型提供了方向
相关研究

1. Multilingual Neural Machine Translation with Implicit Alignment (ACL 2022) 2. Language-Agnostic Representations in Multilingual Sequence Models (EMNLP 2021) 3. Investigating the Role of Representation Learning in Multilingual Transformers (NAACL 2023) 4. Improving Zero-Shot Translation through Language Identification and Adapter Layers (ICLR 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问