

老实说,这几年 AI+医疗的 Nature 不少,但能把"手机前置摄像头隔着空气测心率"这件事做严谨、做大、做到能说服审稿人的,这是第一篇。
它的核心承诺很简单:你每天像往常一样解锁手机,背后已经悄悄完成了一次符合国家标准的医疗级心率测量。不戴手表、不贴胸带、不主动测,全被动。

请索引第102篇论文
![]() | ![]() |
2026年6月1日,Google Research 联合华盛顿大学在 Nature 上线了一篇题为 Passive heart-rate monitoring during smartphone use in everyday life的论文。
💡 数据规模本身就值得记住:开发集 48.5 万人 × 19.2 万段视频,验证集 211 人 × 16.3 万段视频,合计 696 人、超 35 万段 8 秒面部视频——这是迄今 rPPG 领域最大规模的前瞻性验证研究。

01 手机是怎么"看见"心跳的
这事听起来玄,底层其实是高中物理。
心脏每跳一次,面部毛细血管的血容量就跟着周期性充盈/收缩一次。含氧血红蛋白和脱氧血红蛋白对不同波长光的吸收率不一样,于是面部皮肤会产生幅度约 0.1% 量级的、肉眼看不见的周期性明暗与色差变化。
前置摄像头以 15–30 fps 连拍 8 秒,把这段微弱的"血色波动"录下来。剩下的工作就是算法的事:从混杂着环境光、面部微动、背景噪声的视频里,把那根生理信号拎出来。
这就是 rPPG(远程光电容积脉搏波描记法),过去十年学界一直在做,但一直卡在三个地方:
样本量太小,多是几十人的实验室小品
深色皮肤精度崩盘——因为黑色素本身就是广谱吸光剂,绿色波段(525 nm,rPPG 和多数腕带设备的主战场)在进入含血管的 dermis 之前就被大量吸收,回传到摄像头的脉动信号 SNR 差一大截
真实世界验证几乎没有,基本停留在"受试者坐端正、光线稳定"的理想场景
PHRM 这篇,就是奔着把这三个坑一次性填上来的。

02 系统架构:两个模块的接力
PHRM 分两段管线,设计思路上有非常多值得 AI 研究者借鉴的细节。
第一段:8 秒视频 → 瞬时心率
用户解锁屏幕后,前置摄像头被动录制 8 秒面部视频,进入 HR 估计模块(PHRM-HR):
仿射稳像:基于人脸关键点质心做仿射变换,抵消手持抖动
帧率标准化:插值到 15 fps,抹平不同机型帧率差异
人脸裁剪:保留含 20% 边距的最小包围框,减少背景噪声
32×32 降采样:兼顾移动端算力与信号保留
帧间差分:突出血流带来的像素级时域变化
然后是网络本身——这是整篇论文最值得细品的工程决策。
🎯 回归 → 多分类的重构
传统 rPPG 把 HR 估计当成回归问题,输出一个标量。PHRM 把它重构为 40–180 bpm 区间的 140 路多分类,每 1 bpm 一个 bin,最后用 softmax 输出概率分布,再用加权和算出期望 HR。
为什么要这么做?因为分类输出天然携带"不确定性"。当视频质量差(大运动、极端光照、面部遮挡)时,概率分布会趋向平坦;只有当信号清晰时才会集中。团队用负熵(negative entropy)作为置信度指标,搭配一个在调优集上搜出来的阈值做门控——低于阈值的样本直接丢弃,不进入下游。
骨干网络选用 TSCNN(时序移位卷积神经网络),轻量、能在手机端实时跑。训练用 focal loss 处理类别不平衡,最终取 top-5 模型的集成作为输出。
第二段:全天碎片测量 → 每日静息心率
一天中你会解锁手机几十次,每次可能产生一个有效 HR 估计,也可能被门控筛掉。PHRM-RHR 模块的逻辑是:
取当日所有有效 HR 的第 10 百分位作为候选 RHR(生理上,最低的几次心率最接近真实静息态)
跨天的第 10 百分位序列再喂入一个 Kalman 滤波器,滤除偶发噪声、追踪真实生理趋势
当天有效 HR 少于 20 条则不输出 RHR
这个设计的妙处在于:Kalman 滤波让 RHR 估计随时间收敛。论文数据显示,前两天深肤色组的 RHR MAE 还在 5 bpm 以上,从第 3 天起稳定降到 5 bpm 以下。也就是说,短期看不准没关系,靠统计大数定律兜住。

03 实验结果:六个关键数值
实验室条件(vs ECG 金标准,n=104)
指标 | 总体 | 浅肤色 (Group 1) | 中等肤色 (Group 2) | 深肤色 (Group 3) |
|---|---|---|---|---|
MAPE | 5.65% | 3.81% | 4.43% | 8.93% |
MAE (bpm) | 4.09 | 3.00 | 3.16 | 6.17 |
所有组别 MAPE 均显著低于 ANSI/CTA-2065 消费级心率设备 10% 的标准(p<0.001)。
自由生活真实场景(vs ECG,n=101)
总体 MAPE = 4.83%(视频级)/ 6.09%(参与者级),同样压在 10% 红线内
三组 MAPE:5.04% / 5.12% / 7.84%,组间差异上限均 < 5 个百分点,通过非劣效检验
视频级有效测量成功率 43.1%(浅 58% / 中 45% / 深 25%)
每日 RHR(vs Fitbit Charge 6)
总体 MAE = 3.62 bpm(日级)/ 4.39 bpm(参与者级),低于预设 5 bpm 目标
浅 / 中 / 深三组参与者级 MAE:3.72 / 3.56 / 5.86 bpm(深肤色组未单独达 5 bpm 显著性,见局限性讨论)

与 15 个 SOTA rPPG 模型的横向对比
这是论文最有冲击力的一张图。团队把 PhysNet、TS-CAN、EfficientPhys、PhysFormer、PhysMamba、RhythmMamba、ME-rPPG 等 2019–2025 年的代表性模型在相同测试集上跑了一遍,每个模型再分 PURE 预训练版和 RLAP 预训练版:
⚠️ 在所有肤色组、所有对比模型中,PHRM 是唯一一个 MAPE 全面压到 10% 以下的。深肤色组多数竞品 MAPE 飙到 20–35%,PHRM 卡在 7.84%。

04 肤色公平性:这篇论文真正破圈的地方
rPPG 圈子早就知道深色皮肤是硬骨头——黑色素在绿光波段吸收系数高,信号还没进到血管层就被吃掉一大半,回传 SNR 差几倍。FDA 在 2025 年发布的脉搏血氧仪草案指引里已经明确点名了这个问题:要求临床数据至少 150 名受试者、深色肤色数据占比 ≥30%、用 MST 量表或 ITA 角度做客观肤色分层。
PHRM 在这件事上的做法相当硬核:
实验室阶段用 Fitzpatrick 分型(I–III / IV–V / VI),自由生活阶段切换为 Monk Skin Tone(MST)10 级量表——后者是哈佛 Ellis Monk 教授与 Google 合作开发的开放量表,相比只有 6 级的 Fitzpatrick,它对深肤色的刻画颗粒度提升显著
MST 1–4 / 5–7 / 8–10 三组人数比例做到 39% / 29% / 39%,深肤色组超额代表,严格对齐 FDA 草案的 30% 下限要求
门控阈值的搜索加了双约束:各组 MAPE < 8%、组间 MAPE 差 < 3%——这意味着公平性不是事后检验,而是训练阶段就嵌进去的硬指标
论文里有一句话写得很克制但分量很重:
"the MAPE was highest for group 3 under incandescent lighting"
白炽灯的光谱里绿光成分本来就少,叠加深肤色 melanin 的双重打击,信噪比雪上加霜。白炽灯在全球正逐步淘汰,但这一段提醒我们:光学健康监测的公平性问题,一半是算法问题,一半是物理问题——后者靠数据再翻倍也未必能完全解决,未来可能需要近红外波段或自适应曝光策略来破局。

05 三个你必须知道的局限性
作为一篇发在 Nature 的论文,诚实披露局限反而增加了可信度。我挑三条对后续研究者最有价值的:
第一,深肤色组的 RHR MAE 没单组达标。 参与者级 MAE 5.86 bpm(p=0.32),未达到预设的 5 bpm 显著性目标。论文承认这一点,并展示出从第 3 天起 Kalman 滤波收敛后误差才压到 5 bpm 以下。换句话说,PHRM 在深肤色人群上的 RHR 能力是"可用但尚需迭代",不是"已完美"。
第二,参照对象是消费级可穿戴,不是临床金标准。 瞬时心率验证用的是 ECG 胸带(Polar H10),这部分没问题;但每日 RHR 的 ground truth 是 Fitbit Charge 6——一款消费级手环。所以论文证明的是"PHRM 能替代 Fitbit 做日常监测",而不是"PHRM 能替代 Holter 做临床诊断"。两者证据强度差着一个量级。
第三,人群偏年轻。 自由生活测试集平均年龄 37.9 岁,60 岁以上只有 4 人。老年人面部微循环弱、皮肤纹理深、常有颤抖,是 rPPG 的另一类难点。这部分留给了后续研究。

06 对 AI+交叉学科研究者的几点启发
抛开技术细节,这篇论文在"怎么做医疗 AI 研究"这件事上给出了几个可复用的范式:
📌 前瞻性 > 回顾性
团队做了 5 项独立实验室研究 + 1 项前瞻性自由生活研究,数据收集跨度从 2020 年 10 月到 2024 年 3 月。花两年半攒数据,换 Nature 一作——这条路径比"拿公开数据集刷榜"艰难得多,但也是医疗 AI 真正被临床接受的必经之路。
📌 非劣效设计 + 分层检验
不是简单报一个 MAE 数值,而是预设 10% MAPE 和 5 bpm MAE 两条硬线,再做三组肤色间的两两非劣效检验。这种写法把"我的模型有没有用"和"我的模型对谁有用/没用"两件事分得很清楚。
📌 把公平性做成光谱,而不是二元标签
从 Fitzpatrick 6 级升级到 MST 10 级,本身是方法论的进步;再用 ITA 角度做客观校验,又加了一道保险。未来任何涉及人体光学信号的 AI 研究,都应该参考这套分层逻辑。
📌 隐私架构必须跟上算法
论文专门讨论了端侧部署 + 可信执行环境(TEE)的方案——摄像头采集的视频在手机芯片的硬件隔离区内就地处理完即销毁,原始面部像素不出设备。TEE 通过 CPU 硬件机制创建与主操作系统隔离的可信飞地,即使主系统被攻破也无法读取隔离区内的明文数据。这是医疗 AI 从"实验室可用"走向"规模化部署"绕不开的一环。
📂 数据与代码开放
团队同步开源了预训练 HR 模型 + 大规模标注智能手机视频数据集(需学术邮箱 + IRB 审批 + 数据安全计划),仓库地址:github.com/Google-Health/consumer-health-research/tree/main/rppg。对于有志做 rPPG 后续研究的组,这是一份可以直接复用的基线。
写在最后一点私人判断:PHRM 不会立刻让Apple Watch 滞销,但它指向了一个更长期的趋势——手机作为"终极泛在传感器"的角色会越来越重。当算力、算法、传感器、隐私架构四件事同时成熟时,专门的健康硬件可能会被重新定义。这或许是这篇 Nature 对产业界真正的暗示。



内容中包含的图片若涉及版权问题,请及时与我们联系删除




评论
沙发等你来抢