Evaluation of Provenance Serialisations for Astronomical Provenance

简介

天文学数据处理和产品的可信度和可重复性建立在天文管道的来源数据上。此外，天文学家可以查询他们的来源数据以回答与异常检测、推荐和预测等领域相关的问题。下一代天文勘测望远镜，如Vera Rubin Observatory或Square Kilometre Array，能够产生peta到exabyte级别的数据，因此即使是对于来源存储或查询的小改进，也会显得非常重要。为了确定天文学家应该如何存储和查询他们的来源数据，本文报告了海龟和JSON来源序列化之间的比较。海龟和JSON分别被选择为三元存储Apache Jena Fuseki和图形数据库系统Neo4j的代表性数据库管理系统（DBMS）。模拟的来源数据被上传到每个DBMS并进行查询，用于比较的指标包括查询的准确性和时间以及数据上传时间。结果发现，两种序列化方法都能胜任此任务，并且两者的查询准确性相似。海龟来源被发现更有效地存储和上传数据。至于查询，对于小数据集（<5MB）和简单信息检索查询，海龟序列化也被发现更有效。然而，对于涉及跨DBMS匹配模式的更复杂查询，JSON序列化的来源查询被发现更有效，这种效果随着查询来源的大小而扩展。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

比较turtle和JSON序列化在天文学数据处理中的效率和准确性

关键思路

使用Apache Jena Fuseki和Neo4j代表两种数据库管理系统来上传和查询模拟的天文学数据，比较两种序列化方法的效率和准确性

其它亮点

两种序列化方法都能胜任天文学数据处理，turtle序列化在存储和上传数据方面更有效率，而JSON序列化在复杂查询方面更有效率

Evaluation of Provenance Serialisations for Astronomical Provenance

提问交流

提问交流