- 简介通过大型语言模型(LLMs)进行多语言生成时,中等至低资源语言的生成质量往往较差。受可解释性研究的启发,我们发现生成过程中存在一个隐含的“任务求解→翻译”流水线机制,即模型首先以基本与目标语言无关的方式完成所需任务,然后将答案概念翻译成预期的目标语言。我们假设翻译阶段的失败是导致最终输出质量低下的一个重要原因,并将其形式化为“翻译障碍假说”。为了验证这一假说,我们在108种语言对上进行了词汇翻译任务,并利用logit lens技术观察模型在中间层的处理过程。我们发现,相当一部分整体失败确实源于翻译失败,即模型无法将正确求解的中间概念准确翻译为目标语言,尤其在目标语言为低资源语言时更为明显。我们的研究结果揭示了端到端多语言生成面临的一个重要障碍,并为未来旨在提升LLMs多语言能力的研究提供了方向性的启示。
-
- 图表
- 解决问题论文试图解决大语言模型(LLMs)在中低资源语言的多语言生成质量较差的问题,并验证“翻译障碍假说”(translation barrier hypothesis),即模型虽然能够以目标语言无关的方式正确理解任务,但在将中间概念准确翻译为目标语言时存在显著失败。
- 关键思路作者提出了一种基于可解释性分析的方法,观察模型在处理多语言生成任务时是否存在一个隐式的“任务求解→翻译”的流程。通过使用logit lens技术,他们在模型的中间层进行观测,验证了翻译阶段确实是导致最终输出质量下降的重要原因,尤其是在低资源语言上。
- 其它亮点1. 提出了“翻译障碍假说”,并设计实验进行验证 2. 使用logit lens技术观察模型内部处理过程,实证分析翻译阶段的失败比例 3. 实验涵盖108个语言对,具有广泛性和代表性 4. 结果表明低资源语言的翻译失败尤为严重,为未来改进多语言模型提供了方向
- 1. Multilingual Neural Machine Translation with Implicit Alignment (ACL 2022) 2. Language-Agnostic Representations in Multilingual Sequence Models (EMNLP 2021) 3. Investigating the Role of Representation Learning in Multilingual Transformers (NAACL 2023) 4. Improving Zero-Shot Translation through Language Identification and Adapter Layers (ICLR 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流