- 简介互相加强效应(MRE)代表了信息提取和多任务研究的一个有前途的方向。然而,由于MRE混合数据集仅在日语中可用,因此限制了全球研究社区进行全面探索。为解决这一限制,我们介绍了一个多语言MRE混合数据集(MMM),其中包括英语、日语和中文的21个子数据集。在本文中,我们还提出了一种数据集翻译方法,该方法借助大型语言模型(LLMs)来翻译原始的日语数据集,从而显著减少了数据集构建所需的手动注释时间。此外,我们还通过加入开放领域的命名实体识别(NER)和句子分类任务来丰富数据集。利用这个扩展数据集,我们开发了一个统一的输入输出框架来训练一个开放领域信息提取大型语言模型(OIELLM)。OIELLM模型展示了处理新的MMM数据集的能力,表现出显著的性能提升。
- 图表
- 解决问题本论文旨在解决Mutual Reinforcement Effect (MRE)在全球范围内的应用受到限制的问题,因为MRE mix数据集仅限于日语,作者提出了一个跨语言的MRE mix数据集(MMM),并提出了一个基于大型语言模型(LLMs)的数据集翻译方法,同时还在数据集中加入了命名实体识别和句子分类任务。作者开发了一个统一的输入-输出框架,训练了一个开放领域信息抽取大型语言模型(OIELLM),并展示了OIELLM在新的MMM数据集上的表现显著提升。
- 关键思路本论文的关键思路是提出了一个跨语言的MRE mix数据集,并提出了一个基于大型语言模型的数据集翻译方法,同时还在数据集中加入了命名实体识别和句子分类任务,开发了一个统一的输入-输出框架,训练了一个开放领域信息抽取大型语言模型(OIELLM),以提高信息抽取的性能。
- 其它亮点本论文的亮点包括:1. 提出了一个跨语言的MRE mix数据集,解决了全球范围内应用受限的问题;2. 提出了一个基于大型语言模型的数据集翻译方法,显著减少了数据集构建的手动注释时间;3. 在数据集中加入了命名实体识别和句子分类任务,丰富了数据集;4. 开发了一个统一的输入-输出框架,训练了一个开放领域信息抽取大型语言模型(OIELLM),在新的MMM数据集上表现显著提升。
- 在这个领域中,最近的相关研究包括:1.《A Survey of Open Information Extraction》;2.《Open Information Extraction from the Web》;3.《Open Information Extraction using Wikipedia》等。
沙发等你来抢
去评论
评论
沙发等你来抢