AI+大健康论文 | Nature 2026 | 当手机解锁屏幕的那一刻，它在"看"你的心跳

Top 7 Heart Rate Monitor Apps To Keep Yourself Check | Hyperlink InfoSystem

老实说，这几年 AI+医疗的 Nature 不少，但能把"手机前置摄像头隔着空气测心率"这件事做严谨、做大、做到能说服审稿人的，这是第一篇。

它的核心承诺很简单：你每天像往常一样解锁手机，背后已经悄悄完成了一次符合国家标准的医疗级心率测量。不戴手表、不贴胸带、不主动测，全被动。

论文：Passive heart-rate monitoring during smartphone use in everyday life

单位：Google Research 、华盛顿大学

发布日期：2026.06.01

代码：https://github.com/ekanso/schooling_extreme

下载论文：https://t.zsxq.com/1FmZ2

请索引第102篇论文

2026年6月1日，Google Research 联合华盛顿大学在 Nature 上线了一篇题为 Passive heart-rate monitoring during smartphone use in everyday life的论文。

💡 数据规模本身就值得记住：开发集 48.5 万人 × 19.2 万段视频，验证集 211 人 × 16.3 万段视频，合计 696 人、超 35 万段 8 秒面部视频——这是迄今 rPPG 领域最大规模的前瞻性验证研究。

01 手机是怎么"看见"心跳的

这事听起来玄，底层其实是高中物理。

心脏每跳一次，面部毛细血管的血容量就跟着周期性充盈/收缩一次。含氧血红蛋白和脱氧血红蛋白对不同波长光的吸收率不一样，于是面部皮肤会产生幅度约 0.1% 量级的、肉眼看不见的周期性明暗与色差变化。

前置摄像头以 15–30 fps 连拍 8 秒，把这段微弱的"血色波动"录下来。剩下的工作就是算法的事：从混杂着环境光、面部微动、背景噪声的视频里，把那根生理信号拎出来。

这就是 rPPG（远程光电容积脉搏波描记法），过去十年学界一直在做，但一直卡在三个地方：

样本量太小，多是几十人的实验室小品
深色皮肤精度崩盘——因为黑色素本身就是广谱吸光剂，绿色波段（525 nm，rPPG 和多数腕带设备的主战场）在进入含血管的 dermis 之前就被大量吸收，回传到摄像头的脉动信号 SNR 差一大截
真实世界验证几乎没有，基本停留在"受试者坐端正、光线稳定"的理想场景

PHRM 这篇，就是奔着把这三个坑一次性填上来的。

02 系统架构：两个模块的接力

PHRM 分两段管线，设计思路上有非常多值得 AI 研究者借鉴的细节。

第一段：8 秒视频 → 瞬时心率

用户解锁屏幕后，前置摄像头被动录制 8 秒面部视频，进入 HR 估计模块（PHRM-HR）：

仿射稳像：基于人脸关键点质心做仿射变换，抵消手持抖动
帧率标准化：插值到 15 fps，抹平不同机型帧率差异
人脸裁剪：保留含 20% 边距的最小包围框，减少背景噪声
32×32 降采样：兼顾移动端算力与信号保留
帧间差分：突出血流带来的像素级时域变化

然后是网络本身——这是整篇论文最值得细品的工程决策。

🎯 回归 → 多分类的重构
传统 rPPG 把 HR 估计当成回归问题，输出一个标量。PHRM 把它重构为 40–180 bpm 区间的 140 路多分类，每 1 bpm 一个 bin，最后用 softmax 输出概率分布，再用加权和算出期望 HR。

为什么要这么做？因为分类输出天然携带"不确定性"。当视频质量差（大运动、极端光照、面部遮挡）时，概率分布会趋向平坦；只有当信号清晰时才会集中。团队用负熵（negative entropy）作为置信度指标，搭配一个在调优集上搜出来的阈值做门控——低于阈值的样本直接丢弃，不进入下游。

骨干网络选用 TSCNN（时序移位卷积神经网络），轻量、能在手机端实时跑。训练用 focal loss 处理类别不平衡，最终取 top-5 模型的集成作为输出。

第二段：全天碎片测量 → 每日静息心率

一天中你会解锁手机几十次，每次可能产生一个有效 HR 估计，也可能被门控筛掉。PHRM-RHR 模块的逻辑是：

取当日所有有效 HR 的第 10 百分位作为候选 RHR（生理上，最低的几次心率最接近真实静息态）
跨天的第 10 百分位序列再喂入一个 Kalman 滤波器，滤除偶发噪声、追踪真实生理趋势
当天有效 HR 少于 20 条则不输出 RHR

这个设计的妙处在于：Kalman 滤波让 RHR 估计随时间收敛。论文数据显示，前两天深肤色组的 RHR MAE 还在 5 bpm 以上，从第 3 天起稳定降到 5 bpm 以下。也就是说，短期看不准没关系，靠统计大数定律兜住。

03 实验结果：六个关键数值

实验室条件（vs ECG 金标准，n=104）

指标	总体	浅肤色 (Group 1)	中等肤色 (Group 2)	深肤色 (Group 3)
MAPE	5.65%	3.81%	4.43%	8.93%
MAE (bpm)	4.09	3.00	3.16	6.17

所有组别 MAPE 均显著低于 ANSI/CTA-2065 消费级心率设备 10% 的标准（p<0.001）。

自由生活真实场景（vs ECG，n=101）

总体 MAPE = 4.83%（视频级）/ 6.09%（参与者级），同样压在 10% 红线内
三组 MAPE：5.04% / 5.12% / 7.84%，组间差异上限均 < 5 个百分点，通过非劣效检验
视频级有效测量成功率 43.1%（浅 58% / 中 45% / 深 25%）

每日 RHR（vs Fitbit Charge 6）

总体 MAE = 3.62 bpm（日级）/ 4.39 bpm（参与者级），低于预设 5 bpm 目标
浅 / 中 / 深三组参与者级 MAE：3.72 / 3.56 / 5.86 bpm（深肤色组未单独达 5 bpm 显著性，见局限性讨论）

与 15 个 SOTA rPPG 模型的横向对比

这是论文最有冲击力的一张图。团队把 PhysNet、TS-CAN、EfficientPhys、PhysFormer、PhysMamba、RhythmMamba、ME-rPPG 等 2019–2025 年的代表性模型在相同测试集上跑了一遍，每个模型再分 PURE 预训练版和 RLAP 预训练版：

⚠️ 在所有肤色组、所有对比模型中，PHRM 是唯一一个 MAPE 全面压到 10% 以下的。深肤色组多数竞品 MAPE 飙到 20–35%，PHRM 卡在 7.84%。

04 肤色公平性：这篇论文真正破圈的地方

rPPG 圈子早就知道深色皮肤是硬骨头——黑色素在绿光波段吸收系数高，信号还没进到血管层就被吃掉一大半，回传 SNR 差几倍。FDA 在 2025 年发布的脉搏血氧仪草案指引里已经明确点名了这个问题：要求临床数据至少 150 名受试者、深色肤色数据占比 ≥30%、用 MST 量表或 ITA 角度做客观肤色分层。

PHRM 在这件事上的做法相当硬核：

实验室阶段用 Fitzpatrick 分型（I–III / IV–V / VI），自由生活阶段切换为 Monk Skin Tone（MST）10 级量表——后者是哈佛 Ellis Monk 教授与 Google 合作开发的开放量表，相比只有 6 级的 Fitzpatrick，它对深肤色的刻画颗粒度提升显著
MST 1–4 / 5–7 / 8–10 三组人数比例做到 39% / 29% / 39%，深肤色组超额代表，严格对齐 FDA 草案的 30% 下限要求
门控阈值的搜索加了双约束：各组 MAPE < 8%、组间 MAPE 差 < 3%——这意味着公平性不是事后检验，而是训练阶段就嵌进去的硬指标

论文里有一句话写得很克制但分量很重：

"the MAPE was highest for group 3 under incandescent lighting"

白炽灯的光谱里绿光成分本来就少，叠加深肤色 melanin 的双重打击，信噪比雪上加霜。白炽灯在全球正逐步淘汰，但这一段提醒我们：光学健康监测的公平性问题，一半是算法问题，一半是物理问题——后者靠数据再翻倍也未必能完全解决，未来可能需要近红外波段或自适应曝光策略来破局。

05 三个你必须知道的局限性

作为一篇发在 Nature 的论文，诚实披露局限反而增加了可信度。我挑三条对后续研究者最有价值的：

第一，深肤色组的 RHR MAE 没单组达标。 参与者级 MAE 5.86 bpm（p=0.32），未达到预设的 5 bpm 显著性目标。论文承认这一点，并展示出从第 3 天起 Kalman 滤波收敛后误差才压到 5 bpm 以下。换句话说，PHRM 在深肤色人群上的 RHR 能力是"可用但尚需迭代"，不是"已完美"。

第二，参照对象是消费级可穿戴，不是临床金标准。 瞬时心率验证用的是 ECG 胸带（Polar H10），这部分没问题；但每日 RHR 的 ground truth 是 Fitbit Charge 6——一款消费级手环。所以论文证明的是"PHRM 能替代 Fitbit 做日常监测"，而不是"PHRM 能替代 Holter 做临床诊断"。两者证据强度差着一个量级。

第三，人群偏年轻。 自由生活测试集平均年龄 37.9 岁，60 岁以上只有 4 人。老年人面部微循环弱、皮肤纹理深、常有颤抖，是 rPPG 的另一类难点。这部分留给了后续研究。

06 对 AI+交叉学科研究者的几点启发

抛开技术细节，这篇论文在"怎么做医疗 AI 研究"这件事上给出了几个可复用的范式：

📌 前瞻性 > 回顾性

团队做了 5 项独立实验室研究 + 1 项前瞻性自由生活研究，数据收集跨度从 2020 年 10 月到 2024 年 3 月。花两年半攒数据，换 Nature 一作——这条路径比"拿公开数据集刷榜"艰难得多，但也是医疗 AI 真正被临床接受的必经之路。

📌 非劣效设计 + 分层检验

不是简单报一个 MAE 数值，而是预设 10% MAPE 和 5 bpm MAE 两条硬线，再做三组肤色间的两两非劣效检验。这种写法把"我的模型有没有用"和"我的模型对谁有用/没用"两件事分得很清楚。

📌 把公平性做成光谱，而不是二元标签

从 Fitzpatrick 6 级升级到 MST 10 级，本身是方法论的进步；再用 ITA 角度做客观校验，又加了一道保险。未来任何涉及人体光学信号的 AI 研究，都应该参考这套分层逻辑。

📌 隐私架构必须跟上算法

论文专门讨论了端侧部署 + 可信执行环境（TEE）的方案——摄像头采集的视频在手机芯片的硬件隔离区内就地处理完即销毁，原始面部像素不出设备。TEE 通过 CPU 硬件机制创建与主操作系统隔离的可信飞地，即使主系统被攻破也无法读取隔离区内的明文数据。这是医疗 AI 从"实验室可用"走向"规模化部署"绕不开的一环。

📂 数据与代码开放
团队同步开源了预训练 HR 模型 + 大规模标注智能手机视频数据集（需学术邮箱 + IRB 审批 + 数据安全计划），仓库地址：github.com/Google-Health/consumer-health-research/tree/main/rppg。对于有志做 rPPG 后续研究的组，这是一份可以直接复用的基线。

写在最后一点私人判断：PHRM 不会立刻让Apple Watch 滞销，但它指向了一个更长期的趋势——手机作为"终极泛在传感器"的角色会越来越重。当算力、算法、传感器、隐私架构四件事同时成熟时，专门的健康硬件可能会被重新定义。这或许是这篇 Nature 对产业界真正的暗示。

微信群

内容中包含的图片若涉及版权问题，请及时与我们联系删除