How Good are LLMs at Relation Extraction under Low-Resource Scenario? Comprehensive Evaluation

2024年06月17日
  • 简介
    关系抽取(RE)是一项关键技术,用于将非结构化文本转化为结构化信息,特别是在知识图谱开发框架内。它的重要性在于其在各种下游任务中的基本作用。除了基于神经网络和预训练语言模型的传统RE方法外,大型语言模型(LLMs)也被用于RE的研究领域。然而,在低资源语言(LRLs)上,由于数据稀缺问题,传统的RE方法和基于LLM的方法都表现不佳。为此,本文在三个地区(中亚,东南亚和中东)的10种LRL中构建了低资源关系抽取数据集。通过使用有效的多语言机器翻译将原始公开可用的英文RE数据集(NYT10,FewRel和CrossRE)翻译成其他语言来构建这些语料库。然后,我们使用语言困惑度(PPL)来过滤翻译数据集中的低质量数据。最后,我们进行了实证研究,并验证了几个开源LLM在这些生成的LRL RE数据集上的性能。
  • 图表
  • 解决问题
    本论文旨在解决低资源语言下关系抽取的问题,通过构建10个低资源语言的关系抽取数据集,利用多语言机器翻译和语言困惑度来过滤数据,最后验证了几个开源的大型语言模型在这些生成的低资源语言数据集上的表现。
  • 关键思路
    论文的关键思路是通过多语言机器翻译和语言困惑度来构建低资源语言下的关系抽取数据集,并验证大型语言模型在这些数据集上的表现。
  • 其它亮点
    论文使用多语言机器翻译和语言困惑度来构建低资源语言下的关系抽取数据集,这些数据集在10个低资源语言中进行了验证。论文还开源了数据集和代码,并验证了几个开源的大型语言模型在这些数据集上的表现。
  • 相关研究
    在近期的相关研究中,也有一些关于低资源语言下关系抽取的研究,例如《A Survey on Relation Extraction for Low-Resource Languages》和《Cross-lingual Relation Extraction with Pre-trained Multilingual Language Models》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论