- 简介大型语言模型(LLMs)在各个领域展示了显著的潜力,但在信息提取(IE)方面存在显著的性能差距。需要注意的是,高质量的指导数据是提高LLMs特定能力的关键,而当前的IE数据集往往规模较小、碎片化且缺乏标准化模式。因此,我们介绍了IEPile,这是一个包含约0.32B个标记的全面的双语(英语和中文)IE指导语料库。我们通过收集和清理33个现有的IE数据集,并引入基于模式的指导语生成来挖掘大规模的语料库来构建IEPile。在LLaMA、Baichuan和Qwen上的实验结果表明,使用IEPile可以提高LLMs在IE方面的性能,特别是零-shot泛化。我们开源了资源和预训练模型,希望为NLP社区提供有价值的支持。
- 解决问题本论文旨在解决信息抽取(IE)中存在的性能差距问题,即当前IE数据集规模小、碎片化、缺乏标准化模式,限制了大型语言模型的性能。
- 关键思路通过收集和清理33个现有的IE数据集,并引入基于模式的指令生成,构建了一个包含约0.32B标记的全面的双语(英语和汉语)IE指令语料库(IEPile),以提高LLMs在IE方面的性能。
- 其它亮点实验结果表明,使用IEPile可以提高LLMs在IE方面的性能,特别是零样本泛化。作者开源了资源和预训练模型,为NLP社区提供了有价值的支持。
- 近期的相关研究包括:《FewRel 2.0: Towards More Challenging Few-Shot Relation Classification》、《FewRel 2.0: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation》等。
沙发等你来抢
去评论
评论
沙发等你来抢