- 简介目前,最先进的神经检索器主要关注英语等高资源语言,这阻碍了它们在涉及其他语言的检索场景中的应用。目前的方法通过利用能够进行跨语言转移的多语言预训练语言模型来规避非英语语言中高质量标记数据的缺乏。然而,这些模型需要在多种语言上进行大量的任务特定微调,通常在预训练语料库中表现不佳的语言中表现不佳,并且在预训练阶段之后难以合并新语言。在这项工作中,我们提出了一种新颖的模块化密集检索模型,它从单个高资源语言的丰富数据中学习,并有效地零-shot转移到各种语言,从而消除了需要特定于语言的标记数据的需求。我们的模型ColBERT-XM在各种语言中展示了与现有最先进的多语言检索器相当的性能。进一步的分析表明,我们的模块化方法具有高效的数据利用率,能够有效地适应分布外数据,并显著降低能源消耗和碳排放。通过展示其在零-shot场景中的熟练度,ColBERT-XM标志着向更可持续和包容的检索系统的转变,实现了众多语言的有效信息可访问性。我们公开发布了我们的代码和模型供社区使用。
- 图表
- 解决问题本论文旨在解决神经检索模型在非英语语言检索场景下的应用问题,通过使用单一高资源语言的数据,实现零-shot跨语言检索。
- 关键思路该论文提出了一种新的模块化密集检索模型ColBERT-XM,通过预训练的多语言语言模型实现跨语言迁移,避免了需要语言特定标注数据的问题。
- 其它亮点论文的模型ColBERT-XM在多种语言上实现了竞争性的检索性能,相比现有的多语言检索模型更加数据高效,能够适应不同的数据分布,并且能够显著降低能源消耗和碳排放。论文公开了代码和模型。
- 最近的相关研究包括:M2EIR、XLM-R、mBERT等。
沙发等你来抢
去评论
评论
沙发等你来抢