Optimizing a Data Science System for Text Reuse Analysis

简介

文本复用是人文研究中至关重要的方法论元素：在不同文献中重复出现的文本，无论是逐字逐句还是改写，都提供了有关思想历史传播和演变的宝贵信息。大型现代数字化文集使得可以联合分析跨越整个世纪的文本集合，并检测大规模模式，这是传统小规模分析无法检测到的。为了实现这种机会，需要开发高效的数据科学系统来执行相应的分析任务。在本文中，我们分享了ReceptionReader的见解，这是一个用于分析大型历史文集中文本复用的系统。该系统基于18世纪文本的大型数字化文集中数十亿个文本复用实例构建而成。它的主要功能是执行下游文本复用分析任务，例如查找源自给定文章的复用或识别一组文档中最多被复用的引用，每个任务都表示为数据库查询。为了本文的目的，我们讨论了相关的设计选择，包括各种数据库规范化级别和查询执行框架，例如分布式数据处理（Apache Spark）、索引行存储引擎（MariaDB Aria）和压缩列存储引擎（MariaDB Columnstore）。此外，我们针对不同工作负载提供了各种感兴趣的度量标准（延迟、存储大小和计算成本）的广泛评估，并提供了我们观察到的权衡和选择的见解。总之，我们的结果表明：（1）对于最相关于文本复用分析的工作负载，MariaDB Aria框架是总体最佳选择；（2）大数据处理（Apache Spark）对于系统流水线的所有处理阶段都是不可替代的。

图表

解决问题

解决大规模历史文本重用分析的数据科学系统设计问题。

关键思路

利用大规模历史文本数据集，构建基于MariaDB Aria和Apache Spark的系统ReceptionReader，实现对文本重用的查询分析。

其它亮点

系统的设计选择和评估，包括数据库归一化级别、查询执行框架和性能指标的实验结果。结果表明，MariaDB Aria是最佳选择，而Apache Spark在系统的整个流程中不可替代。

Optimizing a Data Science System for Text Reuse Analysis

评论