- 简介即使进行保守估计,80%的企业数据存储在非结构化文件中,这些文件存储在能够容纳异构格式的数据湖中。传统的搜索引擎已经无法满足信息查询需求,尤其是当任务是浏览和探索以制定见解时。换句话说,没有明显的搜索关键字可用。由于其自然的视觉吸引力可以减轻人类认知负担,知识图谱成为异构数据集成和知识表示的赢家。本文介绍了Docs2KG,这是一个新颖的框架,旨在从各种异构非结构化文档中提取多模式信息,包括电子邮件、网页、PDF文件和Excel文件。Docs2KG动态生成一个统一的知识图谱,表示提取的关键信息,使得对文档数据湖的高效查询和探索成为可能。与现有的专注于特定领域数据源或预设计模式的方法不同,Docs2KG提供了一种灵活可扩展的解决方案,可以适应各种文档结构和内容类型。所提出的框架统一了数据处理,支持多种下游任务,具有更好的领域可解释性。Docs2KG可以在https://docs2kg.ai4wa.com上公开访问,演示视频可在https://docs2kg.ai4wa.com/Video上获得。
-
- 图表
- 解决问题论文旨在解决企业数据湖中80%的非结构化文件数据难以有效搜索和浏览的问题,提出了一种多模态信息提取和知识图谱生成的框架。
- 关键思路Docs2KG框架通过从各种非结构化文件中提取关键信息,动态生成一个统一的知识图谱,从而实现了对文档数据湖的高效查询和探索。相比现有的领域特定数据源或预设计模式的方法,Docs2KG提供了一种灵活可扩展的解决方案。
- 其它亮点论文提出了一种新颖的框架Docs2KG,可以从多种非结构化文件中提取信息并生成知识图谱;框架具有灵活可扩展性,可以适应不同的文档结构和内容类型;框架公开可访问,并提供演示视频。
- 近期相关研究包括:1. "Knowledge Graphs: New Directions for Knowledge Representation on the Semantic Web";2. "A survey of knowledge graph applications and systems";3. "Extracting structured data from web pages"。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流