- 简介近期的研究表明,对于大型语言模型(LLMs),开放式命名实体识别(Open Named Entity Recognition,简称NER)仍然具有挑战性,因为它需要从任意领域中识别出任意类型的实体。然而,直接在现有数据集上进行训练面临着实体定义不一致和数据冗余等问题,这限制了LLMs的数据集特定学习并阻碍了跨领域的泛化。为了解决这个问题,作者提出了B2NERD,这是一个包含54个现有英文或中文数据集的Open NER数据集,使用两个步骤进行规范化。首先,我们检测了数据集之间的实体定义不一致,并通过可区分的标签名称进行澄清,构建了一个包含400多种实体类型的通用分类法。其次,我们使用数据修剪策略来解决冗余问题,选择更少但具有更大类别和语义多样性的样本。全面评估表明,B2NERD显著提高了LLMs在Open NER上的泛化能力。我们使用B2NERD训练的B2NER模型,在15个数据集和6种语言的3个跨领域基准测试中,优于GPT-4 6.8-12.0个F1点,并超过了以前的方法。
- 图表
- 解决问题解决NER中存在的实体定义不一致和数据冗余问题,提高LLMs在开放NER上的泛化能力。
- 关键思路构建了一个包含400+实体类型的通用分类体系,并使用数据修剪策略减少了冗余数据,从而构建了一个高效的Open NER数据集B2NERD,利用该数据集训练LLMs可以显著提高其在开放NER上的泛化能力。
- 其它亮点论文通过构建通用分类体系和数据修剪策略来解决NER中存在的实体定义不一致和数据冗余问题,提出了一个高效的Open NER数据集B2NERD,并且在15个数据集和6种语言的3个领域中,B2NER模型的性能均超过了GPT-4,并且在之前的方法中取得了最好的结果。
- 在相关研究方面,最近的研究主要集中在使用更大的模型和更多的数据来提高NER的性能,例如GPT-4和Turing-NLG。
沙发等你来抢
去评论
评论
沙发等你来抢