Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。
>> 原文
Dimitris Bertsimas, Margret V. Bjarnadottir, Michael A. Kane, J. Christian Kryder, Rudra Pandey, Santosh Vempala, and Grant Wang. (2008). Algorithmic Prediction of Health-Care Costs. Operations Research, Vol. 56, No. 6: 1382-1392.
为了进行有意义的比较,我们定义了一个基本方法来比较预测模型的结果。我们使用了过去12个月的医疗费用来预测总体的医疗费用,因为当前的医疗费用是对一个人的健康的强有力的预测,这种基准是比随机分配更加有说服力的。表格5显示了在观测期和预测期成本栏的样本分布。比如,接近70%的人在两个阶段都落在区间1,在观测期的花费落在区间1-4的人在预测期最有可能落在栏区间1;另一方面,在观测期落在区间5的人最有可能仍然是落在区间5(花费最高)。可以推测:医疗花费在中等水平的人健康状况越来越好,而那些投入了大量的医疗费用的人却趋于投入更高的医疗费用。表格6总结了基准预测的所有误差指标,基准预测模型的命中率达到了80%,平均惩罚误差达到0.431,而绝对预测误差是2677。进一步挖掘可以发现,区间1的命中率90.1%,惩罚误差0.287,绝对误差1279。事实上,绝大部分的成员落在区间1,当前的医疗花费低,预测的医疗花费也低。本模型的准确率随着花费区间的增大误差增大。分类树可以应用到各种领域,比如金融、语音识别和医药。在医药方面,它们被应用到髋关节的骨关节炎中,Churg-Strauss综合征以及头和颈癌中,分类树将所有的成员分成更小的特征更为明细那的群组,并且可以展示成树的形式。图形展示的方式使得分类树易于表达,更容易被理解。假设数据集中的人仅可能患有三种疾病:冠状动脉疾病(CAD)、糖尿病,以及急性咽炎。表格7显示了分类树的结果。分类树可以用来预测新成员的医疗费用。我们首先检查他是否患有CAD,如果没有,就归在花费区间1;如果有,进一步检测它是否患有糖尿病,如果有,就归在花费区间5(消费高),没有就归在花费区间3。在整个数据集运行分类树算法产生了比表格7更加复杂的分类结果。表格8与9描述了花费区间4和5的成员的特征,它们说明了分类树是如何利用消费,医药的信息和年龄信息来辨别有危险的人口。过去12个月整体消费在12,300和16,000之间。成员在此期间采取不超过14个不同的治疗类药物,注射盐酸胺碘酮之后并没有有心脏堵塞。所患疾病种类超过15种并且至少有以下一种情况:(a)曾经因为充血性心脏衰竭待过ICU,(b)有肾功能衰竭疾病,(c)在观察期内在多个医院治疗,(d)同时患冠状动脉疾病和抑郁症..在观测期花费超过24,500的成员,确诊继发恶性肿瘤.花费区间2的成员,2700-6100花费,并有如下症状(a)服用冠状动脉疾病和高血压药(b)有周围血管疾病但不吃药.消费区间2,15-34种治疗药物,1200-4000美元花费,因丙型肝炎住院.消费区间2和3,花费少于2,400美元,少于13种治疗药物,发作之后接受Zyban治疗.区间2到5的成员在观测期服用过超过34类治疗药物.区间1的成员在过去三个月中住院费用大概是1,300.区间1的女性在过去6个月的观测期中花费在1,300至1,500之间,没有肾功能衰竭,在怀孕期间没有服用过产前维生素..区间1的成员在过去6个月的观测期花费超过1,700,有非急性成本,有高血压,但在观测期没有实验.在观测期花费超过24,500美元,但在诊所花费低于3,200美元,服用低于14钟药物的会员没有二次恶性肿瘤的诊断,但在过去的三个月观察期超过9次问诊。
聚类方法将相似的样本聚合在一个类中,而将相异的样本聚到不同的类中。我们的预测主要采用搜索-聚类的本征聚类的算法。当应用到数据集中的时候,算法可以自动探测数据中的模式并将属性相似的成员聚合。最开始我们只考虑样本的每月花费数据,给以后的月份比第一个月更大的权重。结果是具有相似消费特征的样本聚合到同一个类中。然后,对每一个消费特征相似的类进行医药数据的聚类,结果是生成消费特征和医药特征相似的类。最后根据学习样本的每一个类进行预测。对其中的一个类进行分析,我们发现在观测期最开始的六个月具有低消费特征的样本在最后一个月都会有更大的消费。问题的关键在于仅仅根据消费数据我们是无法很好辨别每个类中的成员。我们的算法应用了医药数据对消费数据组成的类再分成两类。表10显示了两个类医药信息的最大不同一类的成员在病理学、细胞病理学、饮食和其它方面都显示有患癌的可能,严重的健康问题预示者成员在未来可能会有更高的医疗消费。第二类成员曾接受过物理治疗和整形外科手术和其它肌肉骨骼病症。我们估计,这些成员的健康状况会变好,在以后会有更低的医疗费用。我们在学习样本上运行了分类树算法,并使用验证样本进行验证。我们建立了三个独立的分类树来检测模型的表现。一旦发现符合误差验证的树,将其应用到测试集中。每一个类中的花费和医药特征的数据是相似的。对每一个类,根据学习和验证样本做出预测并且应用到测试集中。我们首先考察总体的性能表现,然后对区间进行验证。表11显示了性能的测试。超过84%的样本被分到正确的区间上,平均惩罚误差是0.385,绝对预测误差是$2243.。分类树的表现比基准方法有了相当大的提高。值得注意的是,惩罚误差减少了10.5%,而命中率提高了5%。对于聚类方法,相比基准方法也有了相当大的改进,结果与分类树算法不相上下,而聚类方法在平均预测误差上有较好的表现。现在,我们更深入的探讨算法的正确性和观测期花费区间的表现。对两种算法来说,顶层区间的准确率提升是最为明显的。分类树方法的命中率几乎提升了一倍,惩罚误差降低了23%,而花费最多的区间的绝对预测误差降低了超过50%。聚类方法的命中率也同样有了一倍的提升,惩罚误差降低了35%,而花费最多的区间的绝对预测误差降低了58%。
总而言之,分类树方法在低消费的区间的命中率和惩罚误差方面表现的更好,而聚类方法在高消费区间则表现更优。我们接下来基于花费信息进行分类,并且和基于花费和医药信息进行分类的预测结果进行比较。在低消费区间其表现是相当,甚至更优。分类树在低花费区间有更优的表现,而聚类方法在两个高花费区间表现更优。总体上来说,加入医药信息并不能提高分类树的表现。基于花费预测的一个重要目标是与病人接触的医药干预,可解释性的医药信息的模型是较优的。其它情况下,基于22个花费变量,相当于1500个医药变量,可能是最优的。与不使用同一数据集的研究作比较不能得到相对准确的结果,因为平均预测误差很大程度上取决于使用的数据集。因此,为了说明作用,我们仅仅比较了其它的两个研究。Cumming et al. (2002) 的平均绝对预测误差是93%,而Powers et al. (2005)的误差则是98%。而我们的聚类方法在测试集上的平均误差是78.8%,而分类树是89.4%,比其它两个研究都低。我们的算法在所有的花费区间都减少了相对误差,区间值越大,误差减少的越多,对R2和R2100方法是5%到49%,对R和R100方法是10%到32%。这说明了我们的预测模型提高了所有花费区间的准确率,尤其是高消费的成员。
总之,两种数据挖掘方法在全部的性能度量方法中都比基准方法有更高的预测能力,在花费越高的区间体现的更加明显。两种方法的表现是不相上下的。聚类方法在高消费成员身上有更好的预测能力,而按照命中率和惩罚误差来看分类树方法在低消费成员上的预测能力更高。我们相信聚类方法之所以在高花费成员上有更高的预测能力,是由于花费和医药信息利用的机成型。在之前,聚类方法首先利用的是花费信息,然后使用医药信息,因为医药信息能进一步挖掘成员属于哪个花费区间。再参照我们的集群样本,花费相似的类的成员在观测期的最后几个月上涨的花费都有相似的轨迹。利用医药信息,聚类算法能够将患者分成两大类:区间4的高风险癌症患者,区间1的肌肉骨骼科。当医药信息不密集,利用低花费区间的成员的花费信息会导致相同的误差。此外,与之前的研究相比,我们发现的证据表明我们的算法比当前的预测方法更好,对所有花费区间R2和|R|指标都更低。我们提出的基于当前数据挖掘方法的算法提供了对花费的量化的有力预测。我们认为,历来被用来评估预测正确性的R2方法具有一定的局限性,我们设计的预测方法在准确率方面可能是更好的。尽管临床信息在我们的数据集中是相对丰厚的,我们发现对高花费的患者,消费信息是最准确的预测。显然,在医药数据比较稀疏的情况下,花费是对医药信息的有效替代。该算法可用于对个人和团体的成本预测,并且作为医疗管理患者接触的基础,后续的研究在基于本文算法的基础上可用于财务报销或保险定价,但需要综合更多的健康医疗经济与系统的设计。加群:加入全球华人OR|AI|DS社区硕博微信学术群
资料:免费获得大量运筹学相关学习资料
人才库:加入运筹精英人才库,获得独家职位推荐
电子书:免费获取平台小编独家创作的优化理论、运筹实践和数据科学电子书,持续更新中ing...
加入我们:加入「运筹OR帷幄」,参与内容创作平台运营
知识星球:加入「运筹OR帷幄」数据算法社区,免费参与每周「领读计划」、「行业inTalk」、「OR会客厅」等直播活动,与数百位签约大V进行在线交流
文章须知
文章作者:D. Bertsimas等
责任编辑:Shutian Li
微信编辑:疑疑
文章由『运筹OR帷幄』转载发布
如需转载请在公众号后台获取转载须知



内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢