文章链接

流行病数据的多层面可视分析,可以加快流行病数据分析任务的交互式探索效率和加深对潜在模式的深 刻理解. 本文对流行病数据可视分析的相关工作展开综述,并主要通过四个方面进行总结和归纳:(1)流行病数 据的时空可视分析,帮助用户发现和理解流行病数据在时间、空间以及时空维度中潜在的流行病特征和传播规律 等;(2)流行病数据中涉及非结构化/半结构化文本的语义可视分析,辅助用户快速了解长、短文本内容中的流行 病内容态势、情感走向等;(3)流行病传播模型的可视分析,增强用户对流行病传播过程中的预测、仿真、监测 等任务的交互式理解;(4)流行病数据的静态信息图,直观反映流行病信息的上下文内容和提高公众的理解效率. 在上述基础上,本文阐述了流行病数据可视分析在数据存储和获取,地图可视化形式多元扩展,流行病模拟传播 分析和多学科交融的综合可视分析存在的问题和挑战.

引 言

流行病是指可以感染众多人口的疾病,它能在 人与人、人与动物之间相互传播,且传播途径多样 化. 大多数流行病可以通过直接接触、感染者的飞 沫、食物、水源进行传播,例如流感病毒,H1N1 病毒,COVID-19 病毒等. 目前国内各类流行病发病 率逐年上升[1],其中 COVID-19 疫情是 21 世纪以来 最为严重的公共卫生事件,不同领域、不同学科的 研究者都在紧密关注这一事件. 根据调查,从该疫情暴发至今,相关论文文献已经超过 13000 篇[2]. 因 此对流行病相关的防控工作以及分析总结工作迫在 眉睫. 

本文将对流行病数据的可视分析方法进行总 结,首先对不同领域中涉及不同类型的流行病相关 数据进行分析与调研,并将其统称为流行病相关数 据. 例如在医学领域中,从病原体角度出发,数据 包含毒力、数量、变异性、基本传染数(R0)等属 性;从受感染群体角度出发,数据包含发病率、死 亡率、治愈率、病情拐点、感染症状、传播时间、 人为干预措施等属性. 在新闻媒体领域中,数据包 括半结构化的疫情播报的文本数据,非结构化的疫 情新闻数据等. 在传播学领域中,患病者的个人轨 迹数据同样也是流行病传播可视分析的重要数据. 目前传统的流行病数据库[3]已经较为成熟,国内外 流行病数据库内容较为全面,涵盖流行病临床与基 础方面的新动态、新进展、新技术和新方法,包括 流行病的诊断、治疗、预防、护理以及卫生防疫、 流行病学相关的知识和各种感染病诊治经验等[4]. 流行病相关数据涉及医学领域,传播学领域,新闻 媒体领域,计算机领域等,数据在不同领域中所呈 现的形式不尽相同. 因此本文根据流行病数据所涉 及的不同领域,将流行病相关数据分为 4 个方面, 从时空维度(T1)、语义层面(T2)、传播模型(T3)、 相关上下文内容(T4)进行介绍和举例,并阐述了 上述类别数据的表现形式. 表 1 所示为对流行病数 据类型和相关数据集的主要分析任务总结.

(1)时空维度 

时空维度中包含了时间属性、空间属性. 例如 移动运营商类、授权非公开数据资源中包含了大量 的位置信息,Monasterio 等人[9]获取了阿根廷和墨西 哥两家移动运营商的匿名交通信息来分析两个拉丁 美洲国家的出行方式和查加斯病的可能危险区. Afzal 等人[19]基于时间维度提出了一种决策空间并用来模拟传染病传播,以减轻疾病影响或防止流行 病进一步传播. 时空数据是目前流行病传播可视分 析方法中较为常见的数据. 

(2)语义信息 

语义信息中以文本数据为主,例如新闻媒体、 杂志、Twitter 中有关于流行病数据的短文本数据集 合[20]. Lee 和 Kanhabua 等人[21-22]对流行病相关的 Twitter 文本内容进行了可视分析. 中国国家卫生健 康委员会对 2020 年暴发的新型冠状病毒肺炎疫情 以文本形式进行实时通报,同时微博、澎湃网站、 丁香园[16]等对疫情新闻的实时发布也使用了文本的 形式. 社交媒体在现代计算机技术的帮助下,不仅 能为疫情文本信息进行及时可视监测和报道,还能 成为有益数据的获取平台,为不同群体的信息获取 提供重要帮助[23]. 

(3)流行病传播模型数据 

流行病模型数据包括模拟仿真数据,模型相关 参数等. 流行病模型包括传播动力学模型,个体模 型等. 常见的流行病模型按照流行病类型分为 SI、 SIR、SIRS、SEIR 模型等[24],按照传播机理又分为 基于常微分方程、偏微分方程、网络动力学等不同 类型. 这些流行病模型数据可以对不同类型的流行 病进行模拟仿真、预测发展趋势等. (4)流行病相关上下文内容 流行病相关上下文内容中包含了病毒基因、科 普信息[25-26]等数据. 基于流行病信息图的呈现方 式,例如病毒海报图、动态信息内容展示和基因图 谱等,加快公众对流行病上下文的理解. 本文基于流行病数据将流行病可视分析任务分 为以下四类:(1)流行病数据时空可视分析,该分 析任务侧重于流行病的分布、传播情况[27];(2)流 行病数据语义可视分析,该分析任务主要针对流行 病文本数据的内容进行挖掘,分析情感变化等;(3) 流行病模型的可视分析,该分析基于流行病模型数 据,通过数据建模,分析传播走向或预测疫情发展;

(4)信息图可视分析,该分析任务所要分析的内容 较少,基于直观的内容可视展现来解释数据. 因此, 根据不同的分析任务,应用不同的可视化形式,能 对流行病数据有更好地可视展现. 上述四类可视分 析任务中,虽然存在了一定的任务重叠以及可视形 式重叠,但其侧重点不同. 因此本文根据其研究的 主要内容以及所使用的流行病数据来源进行分类. 

表 2 所示为本文对流行病数据可视化相关任务和可 视化方法所作总结. 

(1)时空演变可视分析 时空演变可视分析主要是对时间、空间的变化 进行分析探索,例如流行病数据集[19]中包含了大量 的时间信息、地理位置信息等. 由于这类流行病数 据有数据总量大、时序信息冗杂、空间位置信息不 直观等特征,因此可视分析技术能帮助这类数据以 一种较为直观的方式进行呈现. 其中基于统计图表 的可视技术、地图可视分析技术为这类数据集的主 要可视分析手段. 在流行病数据可视分析任务中, 由于流行病的暴发往往具有时空性[85],统计图表可 视分析技术能较好地展现流行病总体的发展趋势, 同时地图可视分析技术能更加直观地展示流行病的 传播情况,对比评估防控措施. 

(2)语义内容可视分析 语义内容可视分析所要处理的数据主要是基于 流行病相关的文本数据,其中包括非结构化、半结 构化等类型的流行病文本. 例如非结构化的流行病 相关的推特数据集合[20]中,由于该数据集总量庞大、 前期数据清理难度大、有效数据信息提取成本高、 数据源变化更新快等特点,运用可视分析技术能较 好地解决这些问题. 目前 SAS 大数据挖掘软件[86]可 以对大量数据进行评估可视分析,运用文本自动可 视技术[87]进行实时舆情分析,了解大众对当下流行 病的看法和情感状况,对流行病相关的媒体数据实 时获取,在面对突发的舆情热潮,政府机关能及时 进行宏观调控等. 

 (3)流行病模型的可视分析 

流行病模型在传播学中研究广泛,其主要以传 播机理可分为基于常微分方程、偏微分方程、网络 动力学展开. 基于上述方法的流行病模型会造成非 该领域的研究人员较难入手,因此对流行病模型的 可视分析同样重要. 流行病模型可以有效地仿真预 测不同类型流行病的传播过程. 传统仅依靠流行病 数据中的数字对传播过程进行解释的行为耗时耗 力,可视化可以大大减少传统方法带来的弊端,从 视觉角度观察模拟的传播过程,可以增强可信度, 并且可以多角度同时展示流行病数据内容. 例如石 耀霖[88]基于传染病模型构造了 SARS 传播动力学模 型. Jalayer[89]基于 ABM(Agent-based model),对 COVID-19 疫情进行传播模拟. 

(4)信息图可视分析 

由于流行病数据涉及领域较为广泛,涉及专业 知识内容较多,对于非专业领域人员而言,面对复 杂的专业知识较难快速理解掌握. 信息图可视分析 是将数据用可视手法进行直观展现的可视分析方法,虽然缺少交互信息,但能友好地面向广大群众. 因此信息图可视化成为面向非专业人员进行知识科 普的主要呈现方式. 例如使用信息图可视分析可以 简单展示病原体的基因衍变和基因变异,也可以展 示人体感染病原体的过程.  

内容中包含的图片若涉及版权问题,请及时与我们联系删除