
Gu等人提出了一种多模态心脏感知基础模型,该模型能够从大规模心电图(ECG)和光电容积脉搏波描记图(PPG)数据中学习可迁移的表征,并结合临床文本和机器生成的文本进行匹配。通过使用Transformer架构和生成式预训练,该方法能够进行人口统计识别、生命体征测量、疾病分类和临床结果预测。所提出的心脏基础模型为心脏健康评估提供了一种适应性强、与设备无关的方法,能够跨人群、跨设备和跨真实世界环境进行泛化。

论文:Cardiac health assessment across scenarios and devices using a multimodal foundation model pretrained on data from 1.7 million individuals
单位:牛津大学、香港城市大学、香港脑心血管健康工程中心、伦敦帝国理工学院、英国诺丁汉大学、瑞典乌普萨拉大学、英国伦敦葛兰素史克公司 ...
请索引第1篇论文
![]() | ![]() |
一个模型,通吃所有心脏信号,临床诊断的通用智能时代正在开启。
心脏监测迎来“ChatGPT时刻”!牛津团队打造170万人预训练模型,心电图、脉搏波全能看懂。
你是否曾想过,未来的心脏健康监测可以像手机语音助手一样智能?无论你用的是医院精密的12导联心电图机,还是手腕上一枚轻巧的智能手表,甚至只是手机摄像头测出的脉搏波,AI都能给出同样可靠的分析。
这听起来像是科幻场景,但牛津大学的研究团队让它向现实迈进了一大步。2026年2月,一篇发表在Nature Machine Intelligence 的论文宣告了心脏感知基础模型(CSFM)的诞生。
图1 a,CSFM 作为一个通用且可扩展的框架,能够从家庭到医院等不同环境下收集的异构心脏监测数据(包括心电图、光电容积脉搏波描记法和临床文本)中学习统一的表征,并支持广泛的下游心血管任务。b ,预训练整合了来自 MIMIC-III-WDB(美国)、MIMIC-IV-ECG(美国)和 CODE-FULL(巴西)的数据,包含约 170 万条异构的心脏相关生物信号和文本。图中展示了按数据集来源和信号模态划分的分布情况。c ,下游评估涵盖了五项代表性任务,包括心脏疾病诊断 (CDD)、人口统计信息识别 (DIR)、生命体征测量 (VSM)、临床结果预测 (COP) 和基于心电图的问答 (QA),使用的数据集包括 CinC17(美国)、PTB-XL(德国)、SimBand(美国)、VTaC(美国)、CODE-15(巴西)和 VitalDB(韩国),涵盖了不同的医疗保健环境和人群。详细的数据集描述和统计数据在补充信息第1节中提供。
01 临床困境
心血管疾病是全球健康的头号杀手,每年导致数百万人死亡。及时准确的心脏监测是预防和管理这些疾病的关键。临床中,医生主要依靠两类生物信号:心电图(ECG)记录心脏电活动,揭示心律和传导问题;光电容积脉搏波(PPG)则通过光学传感器无创监测外周血流和心输出量。
理想情况下,这两者结合能提供更全面的心脏健康状况画像。然而现实很“骨感”。
设备与场景的碎片化是核心难题。论文中的图1清晰地展示了这一现状。
在医院,你可能会接触标准的12导联心电图机,并辅以临床文本报告;在重症监护室(ICU),可能是精简导联的心电图搭配脉搏波监测,常与PPG配对,用于实时监测和预警;回到家中,你佩戴的可穿戴设备(如智能手表、贴片)又只能采集单导联心电图或脉搏波信号。
设备五花八门,信号格式各异,给AI分析带来了巨大难题。传统AI模型的局限在于,它们通常是“一个萝卜一个坑”:针对特定设备、特定信号类型、特定临床任务,训练一个专用模型。
这种模式就像为每把锁配一把特定的钥匙,灵活性和扩展性极差。在资源有限的基层医疗机构或中低收入国家,昂贵的12导联设备并不普及,依赖它训练的先进模型也就无用武之地。
更棘手的是,许多基于卷积网络的模型是“通道依赖”的,其网络架构的第一层就固定了输入信号的通道数。想让它处理不同导联数的心电图?几乎等于重写整个模型。
心脏健康监测领域,长期被困在这种“数据孤岛”和“模型孤岛”中。
02 模型革命
面对重重壁垒,牛津大学的团队提出了一个大胆的构想:能否像训练ChatGPT理解万千语言一样,训练一个“基础模型”来理解所有类型的心脏信号?
他们成功了。这个名为心脏感知基础模型(CSFM)的核心在于“统一”与“生成”。
首先,它用一套巧妙的标记化策略,将不同通道数的心电图、脉搏波信号,以及相关的临床文本报告(如医生诊断意见或机器生成摘要),全部转化为Transformer架构能理解的统一“语言”。无论是12个通道还是1个通道的信号,在模型眼中都变成了由一系列“信号词汇”构成的句子。这从根本上解决了输入格式不一致的问题。
接着,研究团队采用了一种生成式掩码预训练策略。在训练过程中,模型会随机“遮盖”掉一部分信号片段或文本词汇,然后学习根据剩余上下文来“预测”(重建)被遮盖的内容。这个过程迫使模型深入挖掘信号内部、信号与文本之间复杂的依赖关系,从而学到强大且通用的数据表征,而不是死记硬背特定模式。
CSFM在约170万个体的多模态数据上进行了预训练,这些数据整合了来自MIMIC-III、MIMIC-IV、CODE等多个大型数据库的心电图、脉搏波及文本报告。
为了适应不同的计算需求,团队还发布了三个版本的模型:CSFM-Tiny、CSFM-Base和CSFM-Large。
03 三大突破
这个“心脏通才”的表现究竟如何?论文通过五大类下游任务的系统性评估,揭示了其三大革命性突破。图2综合展示了CSFM在多项任务上对比传统方法的优越性能。

图2 a,基于不同数据集的心血管疾病诊断。性能通过多标签/类别分类(class.)的宏 F1 值来衡量。b ,人口统计信息识别。年龄和 BMI 预测(单变量回归)通过 MAE 值来衡量(越低越好),而性别预测(二分类)则通过 AUC 值来衡量(越高越好)。c ,基于 II 导联心电图和 PPG 作为输入的血压波形重建。左图:一个代表性示例。右图:导出的SBP 和 DBP 与真实值的R²值。d ,基于六导联诊断心电图的 1 年死亡率预测。图中展示了一次运行的 ROC 曲线。e ,基于警报发出前信号(心电图和 PPG)的 ICU 误报预测。图中展示了一次运行的 ROC 曲线。f ,使用配对的心电图和问题进行心电图问答。问答系统被设计成一个多项选择题的问答系统,其中,对于每个问题模板,模型会从一组候选答案中选择最合适的答案。所有误差线图(a、b和f)均表示平均值 ± 标准差,该值基于三次独立运行(每次运行使用不同的随机种子,n = 3)计算得出。性能指标采用宏 F1 分数进行衡量,该分数仅基于有效答案计算得出,并作为修正后的宏 F1 分数。
突破一:任务通用,性能卓越
CSFM在心血管疾病诊断、人口统计学信息识别、生命体征测量、临床结局预测和心电图问答五大类任务上,全面超越了从头训练的专用模型(如ResNet、LSTM等)。
在房颤筛查、复杂心电图诊断等任务中,其关键指标Macro-F1显著领先。例如,在利用脉搏波诊断房颤的任务中,CSFM的Macro-F1达到0.398,而传统方法仅为0.357。
更令人印象深刻的是其心电图问答能力。当被问及“心电图是否显示ST段抬高?”等专业问题时,CSFM能结合波形和问题文本,给出准确回答,性能甚至超过了专门设计的融合Transformer模型。

图3 a,在不同心电图通道设置(12导联、6导联、2导联、II导联)下,对心血管疾病诊断(PTB-XL)、1年死亡率预测(CODE-15)和ICU误报预测(VTaC)的性能评估。b,基于VitalDB数据库,利用连续波形(ABP)和导出的数值(SBP和DBP)进行血压预测,并通过平均绝对误差(MAE,单位为mmHg)评估心电图、光电容积脉搏波描记法(PPG)或组合输入数据的性能。c,仅以II导联为输入,针对导联相关问题进行心电图问答(ECG-QA)测试,比较在II导联上训练的Fusion Transformer和CSFM与在所有12导联上训练的模型的性能。示例问题已标注。d,在PTB-XL模型上进行迁移学习,CSFM模型在12导联心电图上预训练,并在导联减少的设置(6导联、2导联、II导联)上进行微调,分别使用100%、50%或10%的训练数据。AV,房室。图 a 和 c 中的所有误差线图均表示平均值 ± 标准差,该平均值基于三个使用不同随机种子进行的独立运行计算得出 (n = 3)。柱状图表示测试 Macro-F1;阴影柱状图表示直接 100% 基线;标记表示性能提升 ( ) 或下降 ( )。
突破二:设备通吃,无缝切换
这是CSFM最惊艳的能力。无论输入是12导联、6导联、2导联还是单导联的心电图,亦或是只有心电图、只有脉搏波,或两者兼具,模型都无需调整架构,且能保持优越性能。
传统模型从12导联“迁移”到单导联时,往往表现暴跌。而CSFM在仅使用单导联(II导联)数据微调时,性能几乎与用全12导联数据微调的传统模型相当。
一个极具挑战性的实验是:仅给模型输入II导联心电图,却询问需要其他导联(如V1导联)才能观察到的特征。结果令人惊讶,如图3c所示,仅用单导联的CSFM,其答题能力竟与使用全12导联输入的基准模型不相上下。这表明其预训练过程真正学会了推断“看不见”的空间信息。

图4 a,使用警报发生前 0、1、2、3、4 和 5 分钟采集的信号,评估 ICU 误报预测在 VTaC 上的预测性能。每个特征集均使用逻辑回归、随机森林和 XGBoost 分类器进行评估。b,比较不同输入模态(仅 PPG、仅 ECG 和 ECG + PPG 组合)下,基于领域特征、基础模型衍生特征和 CSFM 衍生特征的 VTaC 模型性能。c,使用 PPG、II 导联 ECG 和 ECG + PPG 组合信号,对 VitalDB 进行年龄预测,比较基于领域特征、基础模型衍生特征和 CSFM 衍生特征的性能。d,对 CinC17(可穿戴式 ECG)、PTB-XL(12 导联 ECG)和 SimBand(PPG)数据集进行心血管疾病分类。CVD,心血管疾病。图 b–d 中的所有误差线图均以均值 ± 标准差 (mean ± s.d) 的形式表示,计算基于三个独立运行且每个运行使用不同随机种子 (n = 3)。在图 b–d 中,所有特征集均使用 XGBoost 进行评估,参考线指示了性能最佳的基于 CSFM 和非基于 CSFM 的方法,这些方法通过微调或直接训练获得,如图 2 和图 3 所示。

图5 a,正常心律和房颤的PPG到ECG重建代表性示例。b,PPG到ECG重建的定量评估。模型在VitalDB上训练,并应用于SimBand,在CinC17上进行迁移评估(正常与房颤)。波形重建的结果以MAE(柱状图)和均方根误差(RMSE;线)表示,分类的结果以F1(柱状图)和AUC(线)表示。c,单导联到12导联ECG重建的代表性示例,展示了侧壁缺血和非特异性ST/T改变的情况。将BiLSTM(左)和CSFM-Tiny(右)的预测结果与真实值(灰色)进行比较。显示了关键侧壁导联(I、aVL、V5、V6)。d,单导联到12导联ECG重建的定量评估。模型使用 MIMIC-IV(II 导联输入)进行训练,并在 PTB-XL 数据集上进行测试,测试条件为:训练集-真实数据集/测试集-合成数据集和训练集-合成数据集/测试集-真实数据集。结果以重建性能的平均绝对误差 (MAE)(柱状图)和均方根误差 (RMSE)(曲线)表示,分类性能以 F1 值(柱状图)和曲线下面积 (AUC)(曲线)表示。
突破三:特征强大,即插即用
CSFM学习到的数据表征(嵌入向量),本身就是一种强大的“通用特征”。图4的实验表明,研究人员将其作为特征输入给简单的XGBoost分类器,在许多任务上取得的效果,竟与完全微调后的CSFM模型本身旗鼓相当。
这意味着,未来开发心脏AI应用,工程师或许可以直接调用CSFM作为“特征提取器”,大大降低开发门槛和计算成本。与手工设计的专家特征相比,CSFM特征在预测ICU误报警等任务中表现也更稳定、更早预警。

图6 a,预训练阶段框架的整体架构。首先对输入信号进行分词。心电图 (ECG) 和光电容积脉搏波描记图 (PPG) 信号被分割成互不重叠的小块,然后使用浅层线性投影器进行投影;文本数据则使用 WordPiece44 进行分词,并转换为可学习的嵌入向量。随后,这些嵌入向量分别与可学习的通道级和时间/位置级嵌入向量相加,以分别编码模态特定信息和时间/位置特定信息。遵循掩码建模的标准做法,我们随机丢弃 75% 的心电图标记和 50% 的文本标记,并将它们输入到基于 Transformer 的编码器中。丢弃的标记随后被替换为掩码标记,并输入到解码器中进行重建。b,缺失模态和通道的预训练示例:我们基于可用的信号和模态展平所有标记,并基于可用的模态进行重建。随后,对被掩码的标记计算损失。 c,下游分类或单变量回归示例:在编码器输出端添加一个浅层全连接层来执行这些任务。d,下游密集回归示例:在编码器之上应用一个基于卷积的密集回归模块,以从中间 Transformer 特征逐步重建密集波形。蓝色箭头表示跨 Transformer 模块的特征聚合。
04 生成未来
除了卓越的分析能力,CSFM还展现出了生成的潜力,这为资源匮乏的场景带来了曙光。
研究证明,CSFM能够从脉搏波信号中生成对应的心电图波形,也能从单一导联的心电图重建出完整的12导联心电图。虽然生成的“合成数据”与真实数据仍有差距,但这为在缺乏高端设备的地区进行高级别心脏筛查,提供了一种低成本的数据增强和辅助诊断思路。
当然,这项研究也存在局限。比如,Transformer模型的“黑箱”特性使其决策过程难以解释,可能影响临床信任。大规模模型的训练和部署成本也较高。
未来的工作可以探索与大型语言模型的更深层次结合,通过指令微调提升模型的可解释性和推理能力,并继续优化模型效率。
05 迈向公平可及的智能心脏监测新时代
心脏感知基础模型(CSFM)的诞生,标志着心脏健康监测领域向通用人工智能迈出了关键一步。它像一把“万能钥匙”,有望打开因设备、数据和任务碎片化而长期锁闭的精准医疗大门。
从三甲医院的重症监护室,到基层社区的健康小屋,再到每个人手腕上的智能穿戴设备,同一套强大的AI核心将得以部署,让最先进的诊断能力无视地域与资源的差距,普惠于众。
这不仅仅是技术的进步,更是对医疗公平性的一次有力推动。心脏健康的“ChatGPT时刻”已然临近,一个更智能、更融合、更可及的 cardiovascular care 新时代,正随着每一次心跳的节拍,向我们加速走来。



内容中包含的图片若涉及版权问题,请及时与我们联系删除





评论
沙发等你来抢