图片

目前,各个国家和地区均已将大数据视为重要的战略资源.然而,大数据时代普遍存在数据流通困难、数据 监管不足等问题,致使数据孤岛现象严重,数据质量低下,数据要素潜能难以释放.这驱使研究人员探索数据集成技术,以打破数据壁垒、实现信息共享、提升数据质量,进而激活数据要素潜能.关系型数据和知识图谱作为两种至关 重要的数据组织与存储形式,在现实生活中应用广泛.为此,本文聚焦关系型数据和知识图谱,归纳总结并分析实体 解析、数据融合、数据清洗三方面的数据集成关键技术,最后展望未来研究方向与趋势.

http://www.jos.org.cn/jos/article/abstract/6808

图片

 

0

『引言』

随着物联网、社交媒体、电子医疗等技术的高速发展,全球数据呈现爆炸式增长的态势.根据国际数据公 司(International Data Corporation,简称 IDC)统计,到 2025 年全球数据量预计将达 175ZB,表明人类社会已进入大 数据时代[1].近年来,各个国家和地区已陆续将大数据上升至战略层面.例如,2015 年我国在十八届五中全会上首 次提出“国家大数据战略”,同年国务院印发《促进大数据发展行动纲要》,以推进我国大数据发展进程,加速数 据强国建设.此外,美国实施的《大数据研究和发展计划》、英国发布的《英国数据能力发展战略规划》以及欧 盟力推的《数据价值链战略计划》等均已显示出布局大数据战略的迫切性.可以说,大数据正在改变全球社会的发展动力与发展方式,重塑世界格局[2]. 然而,大数据时代普遍存在数据流通困难、数据监管不足等问题,数据孤岛现象严重、数据质量低下,进而 导致数据要素潜能难以释放.2020 年《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》 指出 1 :要加快培育数据要素市场,推进政府数据开放共享,加强数据资源整合,提高数据质量和规范性.因此,各 行业各领域对于数据集成的需求日益迫切.数据集成的最终目标是为驻留在不同数据源中的异构数据提供统 一访问渠道,它是打破数据壁垒,实现信息共享,提升数据质量的重要手段.同时,也为下游的各类数据驱动应用 提供可靠的数据基础.

数据集成的概念广泛,包括实体解析、数据融合数据清洗、关系解析、语义消歧等技术.专家学者们对于 实体解析、数据融合以及数据清洗技术的关注度日益增加,实体解析、数据融合以及数据清洗已成为数据集成 领域的关键研究方向.实体解析是实现数据集成的先决条件,旨在关联不同来源中指向同一实体的数据实例.在 执行完实体解析后,需要将已关联的不同来源的数据集成至统一的数据库中,使得数据内容更丰富,从而发现新 的价值信息.然而,由于不同数据集的异构性、信息不完整、数据错误或数据过时等问题,可能在数据集成过程 中发生冲突.因此,需要通过数据融合以解决来自不同数据源的同一实体在集成过程中产生的冲突问题,从而保 证数据的正确性与一致性,提升数据价值.此外,不同来源的数据本身以及数据集成过程中很可能产生数据质量 问题.所以,数据清洗是贯穿整个数据集成过程的关键技术,旨在检测并修复脏数据,以确保数据集成的有效性.

尽管目前已有若干关于数据集成的综述性文献,但现有的综述性文献侧重于(1)描述数据集成的框架概念 [3-4]、发展脉络[5];或是(2)对数据集成中的某一关键技术(譬如实体解析[6-8]、数据融合[9]、数据清洗[10,11]等)进行 综述,尚缺乏对数据集成中各项关键技术研究现状的全面探讨与分析.此外,随着 5G 和物联网等技术的飞速发 展,网络数据内容呈现爆炸式增长的态势.由于互联网内容的大规模、异质多元、组织结构松散等特点,为人们 有效地获取信息和知识提出了巨大挑战.不同于传统的关系型数据,知识图谱[12](Knowledge Graph,简称 KG)以 其强大的语义处理能力和开放组织能力,已成为一种流行的数据组织形式.近年来,工业界和学术界都致力于 构建大规模知识图谱.然而,尽管这些知识图谱的规模较大(存储了真实世界中的数百万条事实),但仍然是高度 不完整的.例如,开源知识库 Freebase 中 71%的人没有对应的出生地,75%的人没有对应的国籍信息.此外,对于一 些不常见的事实描述可能更不完整.因此,数据集成所关注的数据类型已不仅局限于传统的关系型数据,知识 图谱亦是数据集成所需应对的关键数据类型.此外,亦有一些研究工作涉及面向半结构化数据(Json、XML 等)、 非结构化数据(多媒体数据)的数据集成问题[13,14],然而此类工作仍处于起步阶段,尚未形成完整的体系. 鉴于此,本文从关系型数据和知识图谱两种关键数据类型出发,归纳总结并分析实体解析、数据融合、数 据清洗三方面的数据集成关键技术(如图 1 所示),最后展望未来研究方向与趋势.

图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除