Understanding and Mitigating Language Confusion in LLMs

2024年06月28日
  • 简介
    我们调查了LLMs的一个令人惊讶的限制:它们无法在用户期望的语言中始终生成文本。我们创建了语言混淆基准(LCB)来评估这种失败,涵盖了15种类型上不同的语言,包括现有的和新创建的英语和多语种提示。我们评估了一系列LLMs在单语和跨语言生成上的表现,反映了实际使用情况,发现Llama Instruct和Mistral模型表现出高度的语言混淆,即使是最强大的模型也无法始终以正确的语言回应。我们观察到基础和以英语为中心的指导模型更容易出现语言混淆,这在复杂提示和高采样温度下更为严重。我们发现,通过少量提示、多语言SFT和偏好调整,可以部分缓解语言混淆。我们发布了我们的语言混淆基准,它作为一种高效、可扩展的多语言评估的第一层,网址为https://github.com/for-ai/language-confusion。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决语言模型无法在用户所需的语言中生成文本的问题,并提出了语言混淆基准(LCB)来评估这种失败。
  • 关键思路
    该论文通过评估不同的语言模型在单语和跨语言生成方面的表现,发现即使最强大的模型也无法始终以正确的语言回应用户。作者认为,这种语言混淆问题可以通过少量提示、多语言SFT和偏好调整来部分缓解。
  • 其它亮点
    该论文提出了语言混淆基准(LCB)来评估语言模型的性能,并发现Llama Instruct和Mistral模型存在高度的语言混淆问题。作者还发现,基础和以英语为中心的instruct模型更容易出现语言混淆,并且复杂提示和高采样温度会加剧这种问题。此外,作者还开源了他们的语言混淆基准和相关代码。
  • 相关研究
    最近的相关研究包括《Attention is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》和《GPT-2: Language Models are Unsupervised Multitask Learners》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问