- 简介我们介绍了RealKIE,这是一个旨在推进关键信息提取方法的具有挑战性的数据集基准,重点关注企业应用。这些数据集包括各种文档,包括SEC S1文件、美国保密协议、英国慈善报告、FCC发票和资源合同。每个数据集都提出了独特的挑战:文本序列化差、长文档中稀疏的注释和复杂的表格布局。这些数据集为关键信息提取任务(如投资分析和法律数据处理)提供了一个现实的测试场所。 除了介绍这些数据集外,我们还提供了对注释过程、文档处理技术和基线建模方法的深入描述。这一贡献有助于开发能够处理实际挑战的自然语言处理模型,并支持进一步研究适用于行业特定问题的信息提取技术。 可下载注释数据和OCR输出的链接为https://indicodatasolutions.github.io/RealKIE/,基线复现代码即将推出。
- 图表
- 解决问题RealKIE论文试图解决企业信息提取中的关键问题,包括文本序列化不佳、长文档中稀疏注释和复杂的表格布局等。同时,该论文旨在推动企业应用中信息提取方法的发展。
- 关键思路RealKIE提供了五个具有挑战性的数据集,旨在推动关键信息提取方法的发展。这些数据集包括SEC S1 Filings、US Non-disclosure Agreements、UK Charity Reports、FCC Invoices和Resource Contracts。该论文提供了详细的注释过程、文档处理技术和基线建模方法,为处理实际问题的NLP模型的开发提供了便利。
- 其它亮点RealKIE提供了五个具有挑战性的数据集,旨在推动关键信息提取方法的发展。该论文提供了详细的注释过程、文档处理技术和基线建模方法,为处理实际问题的NLP模型的开发提供了便利。该论文的亮点包括:提供了实验数据集和OCR输出,开源了基线代码,为进一步研究行业特定问题的信息提取技术提供了支持。
- 在这个领域中,最近的相关研究包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《A Survey of Named Entity Recognition and Classification》、《Neural Architectures for Named Entity Recognition》等。
沙发等你来抢
去评论
评论
沙发等你来抢