Few-Shot Cross-Lingual Transfer for Prompting Large Language Models in Low-Resource Languages

2024年03月09日
  • 简介
    大型预训练语言模型(PLMs)是自然语言处理领域的先锋。PLMs的一个广泛应用是“提示”-即上下文学习-用户在提示PLM执行新任务之前,向PLM提供任务描述和一些完成的任务示例作为上下文。只有最大、最能胜任的PLMs才能有效地执行上下文学习,这些模型通常是使用主要为英语语料库训练的,其他语言则被忽略。大多数语言的数据限制阻止了训练能够提示的特定语言的PLMs。尽管提示设置的工作激增,但仍不清楚如何特别为提示跨语言地适应PLMs。我们评估了三种方法来适应LLaMa,一个7B参数的开源PLM,主要是用英语训练的,用于低资源语言的提示,即Kinyarwanda、Hausa和Luganda。我们考虑了几个任务:抽象摘要、多类主题分类和命名实体识别。虽然LAFT的计算成本最高,直观上应该会导致最好的结果,但我们的实验表明,LAFT只有在适应PLMs提示时偶尔是最优选择。相反,翻译和提示设置是适用于所选低资源语言的少量提示的计算效率和成本效益方法。我们发现结果取决于任务和语言,但发现提示方法在所有任务和语言上平均表现最佳。结果显示,在所有任务和语言上聚合时,提示设置比翻译和LAFT的所有提示都表现更好,并且具有统计学意义。
  • 图表
  • 解决问题
    如何将英语为主的预训练语言模型适应于低资源语言的提示任务?
  • 关键思路
    本论文比较了三种方法:few-shot prompting、language-adaptive fine-tuning和neural machine translation,发现在低资源语言中,few-shot prompting是最有效的方法。
  • 其它亮点
    论文使用LLaMa作为预训练模型,在Kinyarwanda、Hausa和Luganda三种低资源语言上进行了抽象摘要、多分类主题分类和命名实体识别任务的实验,发现few-shot prompting方法最有效。此外,论文还提供了开源代码和数据集。
  • 相关研究
    最近的相关研究包括《Unsupervised Cross-Lingual Representation Learning at Scale》和《Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论