- 简介医疗数据泄露的后果对患者、提供者和支付者来说可能是毁灭性的。最近几个月的数据泄露平均财务影响估计接近1千万美元。对于在快速数字化的同时仍在建立符合法律规定的数据治理程序的印度医疗组织来说,这尤其重要。基于计算机的个人信息去识别系统容易受到数据漂移的影响,在跨机构环境下往往失效。因此,对现有的去识别方法进行严格评估,以适应印度数字医疗倡议的安全采用是必要的。本文利用一家印度医疗机构提供的少量去识别患者出院摘要,报告了基于语言模型的去识别算法(在公开非印度数据集上训练)的名义性能,指向了缺乏机构间泛化的问题。同样,使用现成的去识别系统也存在潜在的风险。为了克服数据稀缺性,我们探索了使用公开的印度摘要进行上下文学习,生成合成临床报告的方法。我们的实验表明,使用生成的报告作为创建高性能去识别系统的有效策略,具有良好的泛化能力。
- 图表
- 解决问题本篇论文旨在解决印度医疗机构数字化进程中面临的数据隐私问题,通过生成合成临床报告的方法,提高医疗数据去识别的性能和泛化能力。
- 关键思路使用大型语言模型生成合成临床报告,以提高医疗数据去识别的性能和泛化能力。
- 其它亮点论文通过实验验证了使用大型语言模型生成合成临床报告的方法可以提高医疗数据去识别的性能和泛化能力,相比当前领域的研究,具有新意。研究使用了印度医疗机构提供的小型数据集,并探索了使用开源数据集进行训练的方法。论文还指出了当前现有的医疗数据去识别算法在跨机构情况下的局限性。
- 相关研究包括:《Deep Learning for Medical Image Segmentation: A Review》、《Artificial Intelligence and Machine Learning in Radiology: Opportunities, Challenges, Pitfalls, and Criteria for Success》等。
沙发等你来抢
去评论
评论
沙发等你来抢