- 简介电子病历(EPRs)产生了大量的数据,但也包含了重要的缺失信息。理解和处理这些缺失数据是临床数据分析的重要组成部分,如果不加以处理,可能会导致分析偏差和关键结论的扭曲。缺失数据可能与医疗保健专业人员的实践模式有关,缺失数据的插补可以增加临床决策的有效性。本研究重点介绍了用于理解和解释缺失数据的统计方法以及基于机器学习的临床数据插补方法,使用了单个中心的儿科急诊数据和英国最大的创伤伤害数据库(TARN)的数据。在研究中,我们对与儿童急诊相关的56,961个数据点进行了研究,包括最初的生命体征和观察结果,我们表明缺失数据很可能是非随机的,并且这些缺失数据与医疗保健专业人员的实践模式有关。然后,我们检查了5,791个创伤病例中缺失值的79个TARN字段。使用奇异值分解(SVD)和k最近邻(kNN)基于缺失数据的插补方法,并将插补结果与原始数据集进行比较和统计测试。我们得出结论,1NN插补是最佳插补方法,这表明了临床决策制定的通常模式:找到最相似的患者,并将其属性作为插补。
- 图表
- 解决问题如何处理临床数据中的缺失值,避免分析偏差和结论扭曲?
- 关键思路使用机器学习方法进行缺失数据的填充,比如基于SVD和kNN的方法,其中最佳的方法是1NN。
- 其它亮点论文使用了一家儿童急诊科的数据和英国最大的创伤伤害临床审计数据库(TARN)的数据,共计56,961个数据点和5,791个创伤病例。研究发现缺失数据往往是非随机的,并与医护人员的实践模式有关。实验结果表明,1NN是最佳的缺失数据填充方法。
- 近期的相关研究包括:1.《A Review of Missing Data Handling Methods》;2.《A Comparison of Imputation Methods for Handling Missing Data》。
沙发等你来抢
去评论
评论
沙发等你来抢