- 简介文本复用是人文研究中至关重要的方法论元素:在不同文献中重复出现的文本,无论是逐字逐句还是改写,都提供了有关思想历史传播和演变的宝贵信息。大型现代数字化文集使得可以联合分析跨越整个世纪的文本集合,并检测大规模模式,这是传统小规模分析无法检测到的。为了实现这种机会,需要开发高效的数据科学系统来执行相应的分析任务。在本文中,我们分享了ReceptionReader的见解,这是一个用于分析大型历史文集中文本复用的系统。该系统基于18世纪文本的大型数字化文集中数十亿个文本复用实例构建而成。它的主要功能是执行下游文本复用分析任务,例如查找源自给定文章的复用或识别一组文档中最多被复用的引用,每个任务都表示为数据库查询。为了本文的目的,我们讨论了相关的设计选择,包括各种数据库规范化级别和查询执行框架,例如分布式数据处理(Apache Spark)、索引行存储引擎(MariaDB Aria)和压缩列存储引擎(MariaDB Columnstore)。此外,我们针对不同工作负载提供了各种感兴趣的度量标准(延迟、存储大小和计算成本)的广泛评估,并提供了我们观察到的权衡和选择的见解。总之,我们的结果表明:(1)对于最相关于文本复用分析的工作负载,MariaDB Aria框架是总体最佳选择;(2)大数据处理(Apache Spark)对于系统流水线的所有处理阶段都是不可替代的。
- 图表
- 解决问题解决大规模历史文本重用分析的数据科学系统设计问题。
- 关键思路利用大规模历史文本数据集,构建基于MariaDB Aria和Apache Spark的系统ReceptionReader,实现对文本重用的查询分析。
- 其它亮点系统的设计选择和评估,包括数据库归一化级别、查询执行框架和性能指标的实验结果。结果表明,MariaDB Aria是最佳选择,而Apache Spark在系统的整个流程中不可替代。
- 与此相关的研究包括文本重用分析、大数据处理和数据库查询优化等领域的研究。
沙发等你来抢
去评论
评论
沙发等你来抢