Benchmarking Pre-trained Large Language Models' Potential Across Urdu NLP tasks

2024年05月24日
  • 简介
    大型语言模型(LLMs)在多语言数据上进行预训练,通过从语言和任务特定的模型管道转变为适用于各种任务的单个模型,彻底改变了自然语言处理研究。然而,现有的大多数多语言NLP基准仅提供少数语言的评估数据,并缺乏对各自最先进模型的质量评估。本研究在零样本设置下,使用15个乌尔都语数据集,对着名的LLMs(GPT-3.5-turbo、Llama2-7B-Chat、Bloomz 7B1和Bloomz 3B)在14个任务上进行了深入研究,并与最先进的模型进行了比较和分析。我们的实验表明,最先进的模型在所有乌尔都语NLP任务中均优于所有的编码器-解码器预训练语言模型,而我们的结果进一步表明,基础模型中具有更多语言特定数据但参数较少的LLMs比计算能力更强但语言数据较少的大型模型表现更好。
  • 图表
  • 解决问题
    评估多语言预训练模型在少数语言上的性能,以及与最新技术的比较。
  • 关键思路
    本研究通过在15个乌尔都语数据集上进行零样本学习的14个NLP任务的比较,分析了四个预训练模型的性能。结果表明,基于更多语言特定数据的较小模型比基于更多计算资源但较少语言特定数据的大型模型表现更好。
  • 其它亮点
    本研究使用了15个乌尔都语数据集,评估了四个预训练模型在14个NLP任务上的性能,并与最新技术进行了比较。结果表明,基于更多语言特定数据的较小模型比基于更多计算资源但较少语言特定数据的大型模型表现更好。
  • 相关研究
    最近的相关研究包括“Multilingual BERT: Pretraining Multilingual Language Understanding Systems”和“Unicoder: A Universal Language Encoder”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论