AI时代的药物研发，该如何衡量成功？

一篇来自跨国药企科学家的重磅视角文章，系统提出针对AI驱动先导化合物优化的战略级KPI框架

文献来源：Theis T, Flohr S, Binch H, et al. "Strategic Key Performance Indicators for AI in Lead Optimization." ChemMedChem, 2026; 21:e202501089
开放获取：DOI: 10.1002/cmdc.202501089
作者机构：勃林格殷格翰 · 诺华 · 罗氏 · 阿斯利康 · Nuvisan · 默克KGaA · OpenEye/Cadence

一、为什么要读这篇文章？

近年来，AI技术以前所未有的速度渗透进制药研发的各个环节——从靶标发现、虚拟筛选，到分子生成、ADME性质预测。大量资本与人才涌入，"AI原生"（AI-native）药企也初步展现出超越传统同行的苗头。

然而，一个根本性问题长期被忽视：

我们究竟应该用什么指标，来衡量AI在药物研发中的真实价值？

目前业界普遍依赖的技术指标（如预测精度R²、富集因子、ROC-AUC）本质上只是模型质量的体检报告，并不能回答管理层真正关心的问题：这个AI工具，有没有加快我们的研发进度？有没有减少失败化合物的合成？有没有帮我们更快把候选药物推进临床？

本文由来自7家全球顶级制药及软件公司的科学家联合撰写，作为欧洲药物化学联合会计算与药物化学工作组（EFMC²）的集体发声，系统性地回答了这一问题。这是目前该领域最具实践指导意义的战略KPI框架之一。

二、背景：KPI在药物研发中的历史演变

2.1 知识型工作者的管理难题

文章开篇援引管理学奠基人Peter Drucker的核心观点：知识型工作依赖自主性与创新，不同于流水线式的工业劳动。药物研发恰恰是知识工作的典型代表——成功依赖创造力与迭代试错，而非标准化流程的机械执行。

Drucker那句著名的格言在此显得尤为贴切：

"There is nothing more wasteful than becoming highly efficient at doing the wrong thing."
（没有什么比高效地做错误的事更浪费的了。）

在药物研发中，"做正确的事"意味着选对靶标、找到真正有潜力的先导化合物——而非仅仅让AI模型跑得更快、预测得更准。

2.2 十年前的行业实践

文章回顾了约十年前各大药企评估计算化学（CADD）科学家贡献的方法：

• 百时美施贵宝（BMS）：建立"影响力类别"数据库，从"提供数据"到"发挥关键作用"分级记录，由课题组长和科学家本人共同维护，定期交叉评审。
• 葛兰素史克（GSK）：组织层面记录关键贡献，而非个人层面，聚焦化合物设计与发表。
• 默克（Merck）：采用定性反馈，核心问题是"这个设计工作有没有帮助团队取得成功？"
• 勃林格殷格翰（Boehringer）：定期收集团队对CADD成员影响力的反馈。

这些实践的共同特点是：以定性判断为主，量化程度低。即便引入了影响力类别，其赋值本身仍是主观判断。

2.3 从定性到定量：时代的转变

随着AI工具的规模化部署，这种模糊的评估方式已难以为继。管理层需要量化的证据来支撑投资决策；研发团队需要明确的信号来调整工具应用策略。KPI的引入势在必行，但如何设计好KPI，本身就是一门学问。

三、KPI的固有局限：先认清陷阱，再谈应用

文章并未回避KPI的缺陷，这也是本文视角难能可贵之处。

3.1 Goodhart定律的威胁

经济学家Charles Goodhart提出的定律已成为管理学经典：

"When a measure becomes a target, it ceases to be a good measure."
（当一个指标变成目标，它就不再是好指标了。）

一旦KPI与绩效挂钩，组织就会不可避免地向指标靠拢，甚至扭曲行为来"刷数据"。这在高目标一致性、高目标不确定性的组织（如制药R&D）中尤为突出。

3.2 其他常见陷阱

陷阱	具体表现
追踪成本	任何正式指标都需要数据采集与汇报，增加管理负担
樱桃采摘	KPI过多导致选择性汇报，报好不报坏
激励错位	KPI可能造成部门间目标冲突，产生有界理性下的短视行为
扼杀创新	绩效评估与KPI挂钩可能损害内在动机，而创造力恰恰依赖这种动机
成熟度错配	新兴领域更需要灵活探索，过早引入KPI可能固化思维、阻碍突破

文章的结论并非"不要KPI"，而是：KPI应当被主动、审慎地设计，而非被动、机械地套用。在AI驱动的创新期，避免过度测量与微观管理至关重要。

四、核心难题："数字项目" vs "传统项目"的比较困境

所有公司都渴望证明AI对顶线效率KPI（如"进入临床的时间"或"每个临床候选物的成本"）产生了影响。但这种证明面临一个根本性的方法论难题。

4.1 信噪比问题

与制造业不同，药物发现本质上是特异性的（idiosyncratic）——每个项目的靶标类别、模态、数据可用性都大相径庭。理想的对照实验（两支相同团队研究同一靶标）永远不会存在。

这带来了严重的混淆变量问题：

• 一个"数字项目"推进更快，究竟是因为AI工具更好，还是因为靶标本身更易成药？
• 历史基线项目的时代背景、技术条件、竞争格局各异，如何做到"苹果对苹果"的比较？

4.2 提案：靶标"可数字化评分"（Digitizability Score）

为解决上述问题，文章创造性地提出了一个新概念——Digitizability Score（可数字化评分），类比于药物发现领域已有的"成药性评分"（druggability）和"配体化性评分"（ligandability）。

该评分综合考量以下因素：

• 共晶结构（co-crystal structures）的可用性
• 已知配体的数量与质量
• 靶标类别的先例程度（target class precedence）

该评分的双重价值：

1. 前瞻性：帮助团队在项目启动前筛选最适合AI介入的靶标，最大化数字工具的杠杆效应；
2. 回顾性：在项目结束后，作为归一化因子，将AI的实际贡献与靶标本身的固有特性解耦，让效率KPI重获意义。

五、采纳度KPI：三个务实的衡量维度

文章提出，简单的"使用量"统计（模型调用次数、活跃用户数、工作流执行次数）虽然直观实时，但随着自动化程度提升，人工操作减少，使用量本身越来越难以反映AI的真实影响。

5.1 速度拐点（Velocity Inflection）

在工业药物化学中，项目团队通常持续追踪关键优化参数（KOPs）（如活性、选择性、渗透性）随时间的变化曲线。

将数字工具的引入时间点标记在曲线上，若随后出现斜率的突变或不连续性，即为"速度拐点"——这是AI工具（结合团队策略）加速优化的客观证明。

正向数据（拐点明显）可以反馈给团队，强化信心并鼓励将工具延续到下一个项目；负向数据（曲线平坦）则是调整策略的信号。

5.2 旁路率（Bypass Rate）

制药研发的标准化合物优化级联（assay cascade）中，通常存在若干"门控实验"——必须通过才能进入下一阶段的测试。例如，肝微粒体稳定性实验（liver microsomes）是肝细胞实验（hepatocytes）的前置门控。

如果预测模型的置信度足够高，某些化合物可以直接跳过湿实验门控，进入下一级测试。

旁路率 = 基于高置信预测成功跳过湿实验门控的化合物数量或比例

这个KPI是一个双重指标：

• 效率维度：节省了多少时间和成本？
• 信任维度：团队愿意"押注"在预测上的程度，反映了对模型的真实信赖程度。

5.3 内部净推荐值（Internal NPS, iNPS）

净推荐值（Net Promoter Score）是客户体验管理领域的经典工具，核心问题只有一个：

"您有多大可能向同事推荐这个工具？"（0-10分）

将其移植到内部R&D工具评估，即得到iNPS。项目团队是CADD工具的"客户"，高iNPS是工具在组织内未来扩散的领先指标（leading indicator）。相比其他指标，iNPS还可以借鉴服务业多年的丰富经验积累。

六、战略KPI详解：按工具类型分述

6.1 虚拟筛选（Virtual Screening）

为什么富集因子不够用？

富集因子（enrichment factor）只能衡量虚拟命中物在已知活性化合物库中的排名效率，而完全无法反映"找到的化学骨架有没有价值"这一核心问题。

推荐的战略KPI：

① 团队采纳率（Team Uptake Rate）
定义：AI推荐的命中物中，被药物化学家实际选择进行进一步优化的比例。

技术上活跃但结构上毫无吸引力的命中物（被团队忽视）对项目没有任何价值。团队采纳率是比命中率更真实的"价值过滤器"，虽然受到认知质量和时机等复合因素影响，但仍是重要参考。

建议实施方式：VS活动应尽量与湿实验HTS并行开展，以校正靶标偏差；筛选大型虚拟化学空间时，建议至少获取/合成数百个化合物进行验证。

② 每验证命中成本（Cost per Validated Hit）
定义：总筛选成本（计算成本 + 合成成本）除以生物学验证命中簇数量。

注意：计算方法初看成本低，但需计入软件许可费、假阳性命中物的复杂合成成本等隐性开销。此KPI有助于推动筛选技术的成本效益优化，避免为了"看起来省钱"而选择实际上价值较低的方案。

6.2 生成式AI（Generative AI）

生成式AI面临一个独特的评估困境：没有真实标签（ground truth）可以对标。因此，技术指标（有效性、合成可及性评分）大多只是代理指标，而非真正衡量业务影响的指标。

推荐的战略KPI：新颖性加权影响（Novelty-Weighted Uptake）

定义：满足以下两个条件的已合成化合物数量：

1. 来源可溯：化合物思路或骨架能与GenAI的建议明确关联；
2. 满足新颖性阈值：与项目现有化学空间的Tanimoto相似度 < 0.8（或其他预设阈值）。

为什么不用简单的"完全匹配"或"宽松归因"？

• 严格的完全匹配低估了影响：团队总会对AI建议进行修改和迭代，切断了可溯源性；
• 过松的归因高估了影响：会将显而易见的类似物错误地记功于AI。

新颖性加权确保KPI奖励的是真正有创新价值的建议，而非对已知结构的简单变奏。这也解决了一个核心问题：GenAI与团队自主设计之间的化学空间重叠往往较小，需要明确的相似度阈值来界定"独立贡献"的边界。

6.3 ADME性质预测模型

目标不只是预测准确，而是支持决策

对ADME预测模型而言，高R²和低MAE是必要条件，但不是充分条件。静态测试集的表现往往无法反映真实项目中的预测效用。

文章建议采用时间分割评估（time-split evaluation）：使用化合物合成时实际可用的模型版本进行回溯预测，模拟前瞻性表现，更贴近真实部署场景。

推荐的战略KPI：平均性质偏移（Mean Property Shift）

定义：追踪已合成化合物关键终点（代谢稳定性、渗透性、溶解度等）的移动平均值随时间的变化趋势。

若ADME预测模型真正发挥了作用，这条曲线应随时间向目标方向漂移。若曲线持平，说明存在以下两种失败之一：

• 技术失败：模型质量本身不足（时间分割R²/MCC偏低）；
• 文化失败：模型质量足够，但团队根本没有用它来过滤设计方案。

这一区分对于管理决策至关重要：前者需要改进模型，后者需要改进培训与推广策略。

此外，文章还强调了核心运营KPI的重要性：服务正常运行时间、预测框架的鲁棒性、响应速度——这些是确保工具被实际使用的基础设施保障。

七、七大战略KPI汇总

应用领域	KPI名称	定义与测量方法	战略目标
虚拟筛选	团队采纳率	AI推荐命中物被化学家选用进行合成或测试的比例	衡量虚拟命中物的感知价值，超越理论富集指标
虚拟筛选	每验证命中成本	总筛选成本（计算+合成）除以生物学验证命中簇数	确保AI筛选相对传统方法的成本效益
生成式AI	新颖性加权影响	来源于GenAI且满足新颖性阈值（Tanimoto<0.8）的已合成化合物数量	量化系统对新颖化学物质的贡献（创新），而非简单的类似物挖掘
ADME/性质预测	平均性质偏移	已合成化合物关键终点（代谢稳定性等）随时间变化的移动均值	评估预测模型是否切实引导项目向目标性质方向推进
采纳度	速度拐点	关键优化参数（KOPs）随项目时间变化的斜率突变	客观衡量工具是否加速了先导优化进程
采纳度	旁路率	基于高置信预测成功跳过湿实验门控的化合物比例	衡量效率收益与团队对预测可靠性的信任程度
采纳度	内部净推荐值（iNPS）	"您有多大可能向同事推荐这个工具？"（0-10分）	用户满意度指标及未来组织推广的领先指示

八、未来展望：KPI的下一个进化方向

文章对未来研究提出了三个方向：

① 纵向关联研究
探索早期战略KPI（如速度拐点、旁路率）与顶线交付物（效率、速度）之间的因果关系，使KPI真正成为成功的可靠预测指标，而非结果的被动记录。

② 可数字化评分的标准化
确定哪些数据因素（如结构可用性 vs 实验数据方差）最能预测靶标对AI工具的适应性，建立行业标准化评分体系，使跨项目、跨公司的比较成为可能。

③ 人机交互与信任的量化研究
信任是旁路率背后的关键心理机制。深入理解信任如何影响决策质量，将为下一代"增强智能"系统（augmented intelligence systems）的设计提供实证基础。

文章还特别提出了一个时间窗口的紧迫性：目前是利用前AI项目作为历史基线评估AI影响力的难得机会——随着时间推移，这一基线将永久消失。

写在最后

这篇文章解决了什么问题？

当前行业有大量文章讨论"AI模型有多准"，却极少有人系统讨论"AI工具有没有真正改变研发结果"。本文填补了这一关键空白，将评估框架从技术验证提升到战略影响层面。

哪些观点最值得关注？

1. "旁路率"是一个极其精妙的双重指标——它同时测量了效率（跳过了多少湿实验）和文化（团队有多信任AI预测）。效率好测，文化难量，旁路率用一个数字把二者合并了。
2. "可数字化评分"的提案高度原创，若能形成行业标准，将从根本上改变数字项目与传统项目比较的方法论困境。
3. 对Goodhart定律的引用体现了作者的自我批判精神——他们在推广KPI的同时，也在警告KPI的滥用风险。这种双重视角在行业文章中较为罕见。

局限性

文章本身也坦诚，所提出的KPI并非完美工具，可能在某些情况下过度简化复杂的科学过程。此外，由于所有作者均就职于应用AI工具的药企，存在一定的利益相关性（conflict of interest），读者在参考时可适当考量。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

AI时代的药物研发，该如何衡量成功？

一篇来自跨国药企科学家的重磅视角文章，系统提出针对AI驱动先导化合物优化的战略级KPI框架

一、为什么要读这篇文章？

二、背景：KPI在药物研发中的历史演变

2.1 知识型工作者的管理难题

2.2 十年前的行业实践

2.3 从定性到定量：时代的转变

三、KPI的固有局限：先认清陷阱，再谈应用

3.1 Goodhart定律的威胁

3.2 其他常见陷阱

四、核心难题："数字项目" vs "传统项目"的比较困境

4.1 信噪比问题

4.2 提案：靶标"可数字化评分"（Digitizability Score）

五、采纳度KPI：三个务实的衡量维度

5.1 速度拐点（Velocity Inflection）

5.2 旁路率（Bypass Rate）

5.3 内部净推荐值（Internal NPS, iNPS）

六、战略KPI详解：按工具类型分述

6.1 虚拟筛选（Virtual Screening）

6.2 生成式AI（Generative AI）

6.3 ADME性质预测模型

七、七大战略KPI汇总

八、未来展望：KPI的下一个进化方向

写在最后

这篇文章解决了什么问题？

哪些观点最值得关注？

局限性

评论列表

评论

AI时代的药物研发，该如何衡量成功 ？

一篇来自跨国药企科学家的重磅视角文章，系统提出针对AI驱动先导化合物优化的战略级KPI框架

一、为什么要读这篇文章？

二、背景：KPI在药物研发中的历史演变

2.1 知识型工作者的管理难题

2.2 十年前的行业实践

2.3 从定性到定量：时代的转变

三、KPI的固有局限：先认清陷阱，再谈应用

3.1 Goodhart定律的威胁

3.2 其他常见陷阱

四、核心难题："数字项目" vs "传统项目"的比较困境

4.1 信噪比问题

4.2 提案：靶标"可数字化评分"（Digitizability Score）

五、采纳度KPI：三个务实的衡量维度

5.1 速度拐点（Velocity Inflection）

5.2 旁路率（Bypass Rate）

5.3 内部净推荐值（Internal NPS, iNPS）

六、战略KPI详解：按工具类型分述

6.1 虚拟筛选（Virtual Screening）

6.2 生成式AI（Generative AI）

6.3 ADME性质预测模型

七、七大战略KPI汇总

八、未来展望：KPI的下一个进化方向

写在最后

这篇文章解决了什么问题？

哪些观点最值得关注？

局限性

评论列表

评论

AI时代的药物研发，该如何衡量成功？