MEDFuse: Multimodal EHR Data Fusion with Masked Lab-Test Modeling and Large Language Models

2024年07月17日
  • 简介
    电子健康记录(EHR)本质上是多模态的,包括结构化的表格特征,如实验室检测和非结构化的临床记录。在实际临床实践中,医生使用互补的多模态EHR数据源来更清晰地了解患者的健康状况并支持临床决策。然而,大多数EHR预测模型并不反映这些过程,因为它们要么专注于单一模态,要么忽略了模态间的交互/冗余。在这项工作中,我们提出了MEDFuse,一种多模态EHR数据融合框架,它结合了掩码实验室测试建模和大型语言模型(LLMs),以有效地整合结构化和非结构化的医疗数据。MEDFuse利用从两个来源提取的多模态嵌入:在自由临床文本上微调的LLMs和在结构化实验室测试结果上训练的掩码表格变压器。我们设计了一个分离的变压器模块,通过互信息损失进行优化,以便解耦模态特定和模态共享信息,并从临床记录中存在的噪声和冗余中提取有用的联合表示。通过对公共MIMIC-III数据集和内部FEMH数据集的全面验证,MEDFuse在推进临床预测方面展现出巨大的潜力,在10种疾病的多标签分类任务中实现了超过90%的F1分数。
  • 图表
  • 解决问题
    本篇论文旨在解决单一模态或忽略模态间相互作用/冗余的电子病历预测模型的问题,提出了一种多模态电子病历数据融合框架MEDFuse。
  • 关键思路
    MEDFuse利用从两个源提取的多模态嵌入,结合掩蔽实验室测试建模和大型语言模型,有效地整合结构化和非结构化医疗数据。通过设计一个通过互信息损失优化的分离变压器模块,从临床笔记中提取有用的联合表示,并从噪声和冗余中解耦模态特定和模态共享信息。
  • 其它亮点
    通过对公共MIMIC-III数据集和内部FEMH数据集的全面验证,MEDFuse在10种疾病的多标签分类任务中实现了超过90%的F1分数。值得注意的是,论文开源了代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《A survey on multimodal medical data fusion》;2.《Multimodal medical data fusion: A comprehensive review》;3.《A deep learning framework for multi-modal fusion of clinical and genomic data》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论