Large Language Models are Good Spontaneous Multilingual Learners: Is the Multilingual Annotated Data Necessary?

简介

最近，大型语言模型（LLMs）展示了令人印象深刻的语言能力。然而，大多数现有的LLMs都是以英语为中心的，其在不同语言之间表现非常不稳定和不平衡。多语言对齐是增强LLMs多语言能力的有效方法。在这项工作中，我们探索了利用翻译数据的多语言对齐范式，并全面调查了LLMs的自发多语言改进。我们发现，仅在问题翻译数据上进行指令调整而没有注释答案的LLMs能够获得显着的多语言性能提升，即使在指令调整期间未见过的各种语言中也是如此。此外，我们利用不同的设置和机械解释方法全面分析LLM在多语言场景中的性能。
图表
解决问题

探索多语言对齐范式的有效性，以增强大型语言模型（LLMs）的多语言能力。
关键思路

利用翻译数据进行指导训练，无需注释答案，即可显著提高LLMs的多语言表现。
其它亮点

论文使用不同的设置和机制可解释性方法来全面分析LLMs在多语言场景中的表现。实验结果表明，LLMs只需进行问题翻译数据的指导训练，即可跨越多种未见过的语言获得显著的多语言表现提升。
相关研究

最近的相关研究包括《Beyond English-Centric Multilingual Machine Translation》、《Unsupervised Multilingual Representation Learning for Speech Recognition》等。