- 简介多语言LLM在不同语言之间的知识差距往往存在不平衡情况,而在资源匮乏的语言中,这种差距更为明显。因此,在LLM面对知识差距时教授他们自我克制是一种有前途的策略,以减少多语言环境下的幻觉。然而,以往关于LLM自我克制的研究主要集中在英语上;我们发现,将现有解决方案直接应用于英语以外的语言会导致高资源语言和低资源语言之间的性能差距高达20.5%,这可能是由于LLM在几种资源丰富的语言之外的校准和推理能力下降所致。为此,我们提出了一种增强LLM自我克制的策略,即从多语言反馈中学习,LLM通过在相关语言中生成多个反馈项来自我反思所提出的答案:我们发现,这有助于识别跨不同语言、文化和社区的知识差距。广泛的实验表明,我们的多语言反馈方法优于各种强基线,在三个数据集上的三个黑盒和开放模型中,对低资源语言实现了高达9.2%的改进,包括开放式问题、封闭式问题和常识问答。进一步的分析表明,多语言反馈既是一种有效的,也是一种更加公平的自我克制策略,适用于服务多样化的语言使用者,文化因素对语言选择和LLM自我克制行为有很大的影响,为多语言和多文化可靠语言建模的未来方向提供了启示。
- 图表
- 解决问题本论文旨在解决多语言学习模型(LLMs)在不同语言之间的知识差异问题,提出了一种通过多语言反馈来增强LLM弃权策略的方法。
- 关键思路通过让LLMs在一个语言中提出答案并在相关语言中生成多个反馈项,来识别不同语言、文化和社区中的知识差距。
- 其它亮点论文使用多个数据集和模型进行了广泛实验,证明了多语言反馈方法相比现有的弃权策略更加有效,且对于低资源语言的表现有9.2%的提升。此外,文中还探讨了文化因素对语言选择和LLM弃权行为的影响,为未来的研究提供了方向。
- 与本论文相关的研究包括:'Improving Language Understanding by Generative Pre-Training','BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding','Cross-lingual Language Model Pretraining'等。
沙发等你来抢
去评论
评论
沙发等你来抢