一篇来自跨国药企科学家的重磅视角文章,系统提出针对AI驱动先导化合物优化的战略级KPI框架


文献来源:Theis T, Flohr S, Binch H, et al. "Strategic Key Performance Indicators for AI in Lead Optimization." ChemMedChem, 2026; 21:e202501089
开放获取:DOI: 10.1002/cmdc.202501089
作者机构:勃林格殷格翰 · 诺华 · 罗氏 · 阿斯利康 · Nuvisan · 默克KGaA · OpenEye/Cadence


一、为什么要读这篇文章?

近年来,AI技术以前所未有的速度渗透进制药研发的各个环节——从靶标发现、虚拟筛选,到分子生成、ADME性质预测。大量资本与人才涌入,"AI原生"(AI-native)药企也初步展现出超越传统同行的苗头。

然而,一个根本性问题长期被忽视:

我们究竟应该用什么指标,来衡量AI在药物研发中的真实价值?

目前业界普遍依赖的技术指标(如预测精度R²、富集因子、ROC-AUC)本质上只是模型质量的体检报告,并不能回答管理层真正关心的问题:这个AI工具,有没有加快我们的研发进度?有没有减少失败化合物的合成?有没有帮我们更快把候选药物推进临床?

本文由来自7家全球顶级制药及软件公司的科学家联合撰写,作为欧洲药物化学联合会计算与药物化学工作组(EFMC²)的集体发声,系统性地回答了这一问题。这是目前该领域最具实践指导意义的战略KPI框架之一。


二、背景:KPI在药物研发中的历史演变

2.1 知识型工作者的管理难题

文章开篇援引管理学奠基人Peter Drucker的核心观点:知识型工作依赖自主性与创新,不同于流水线式的工业劳动。药物研发恰恰是知识工作的典型代表——成功依赖创造力与迭代试错,而非标准化流程的机械执行。

Drucker那句著名的格言在此显得尤为贴切:

"There is nothing more wasteful than becoming highly efficient at doing the wrong thing."
(没有什么比高效地做错误的事更浪费的了。)

在药物研发中,"做正确的事"意味着选对靶标、找到真正有潜力的先导化合物——而非仅仅让AI模型跑得更快、预测得更准。

2.2 十年前的行业实践

文章回顾了约十年前各大药企评估计算化学(CADD)科学家贡献的方法:

  • • 百时美施贵宝(BMS):建立"影响力类别"数据库,从"提供数据"到"发挥关键作用"分级记录,由课题组长和科学家本人共同维护,定期交叉评审。
  • • 葛兰素史克(GSK):组织层面记录关键贡献,而非个人层面,聚焦化合物设计与发表。
  • • 默克(Merck):采用定性反馈,核心问题是"这个设计工作有没有帮助团队取得成功?"
  • • 勃林格殷格翰(Boehringer):定期收集团队对CADD成员影响力的反馈。

这些实践的共同特点是:以定性判断为主,量化程度低。即便引入了影响力类别,其赋值本身仍是主观判断。

2.3 从定性到定量:时代的转变

随着AI工具的规模化部署,这种模糊的评估方式已难以为继。管理层需要量化的证据来支撑投资决策;研发团队需要明确的信号来调整工具应用策略。KPI的引入势在必行,但如何设计好KPI,本身就是一门学问。


三、KPI的固有局限:先认清陷阱,再谈应用

文章并未回避KPI的缺陷,这也是本文视角难能可贵之处。

3.1 Goodhart定律的威胁

经济学家Charles Goodhart提出的定律已成为管理学经典:

"When a measure becomes a target, it ceases to be a good measure."
(当一个指标变成目标,它就不再是好指标了。)

一旦KPI与绩效挂钩,组织就会不可避免地向指标靠拢,甚至扭曲行为来"刷数据"。这在高目标一致性、高目标不确定性的组织(如制药R&D)中尤为突出。

3.2 其他常见陷阱

陷阱
具体表现
追踪成本
任何正式指标都需要数据采集与汇报,增加管理负担
樱桃采摘
KPI过多导致选择性汇报,报好不报坏
激励错位
KPI可能造成部门间目标冲突,产生有界理性下的短视行为
扼杀创新
绩效评估与KPI挂钩可能损害内在动机,而创造力恰恰依赖这种动机
成熟度错配
新兴领域更需要灵活探索,过早引入KPI可能固化思维、阻碍突破

文章的结论并非"不要KPI",而是:KPI应当被主动、审慎地设计,而非被动、机械地套用。在AI驱动的创新期,避免过度测量与微观管理至关重要。


四、核心难题:"数字项目" vs "传统项目"的比较困境

所有公司都渴望证明AI对顶线效率KPI(如"进入临床的时间"或"每个临床候选物的成本")产生了影响。但这种证明面临一个根本性的方法论难题。

4.1 信噪比问题

与制造业不同,药物发现本质上是特异性的(idiosyncratic)——每个项目的靶标类别、模态、数据可用性都大相径庭。理想的对照实验(两支相同团队研究同一靶标)永远不会存在。

这带来了严重的混淆变量问题

  • • 一个"数字项目"推进更快,究竟是因为AI工具更好,还是因为靶标本身更易成药?
  • • 历史基线项目的时代背景、技术条件、竞争格局各异,如何做到"苹果对苹果"的比较?

4.2 提案:靶标"可数字化评分"(Digitizability Score)

为解决上述问题,文章创造性地提出了一个新概念——Digitizability Score(可数字化评分),类比于药物发现领域已有的"成药性评分"(druggability)和"配体化性评分"(ligandability)。

该评分综合考量以下因素:

  • • 共晶结构(co-crystal structures)的可用性
  • • 已知配体的数量与质量
  • • 靶标类别的先例程度(target class precedence)

该评分的双重价值

  1. 1. 前瞻性:帮助团队在项目启动前筛选最适合AI介入的靶标,最大化数字工具的杠杆效应;
  2. 2. 回顾性:在项目结束后,作为归一化因子,将AI的实际贡献与靶标本身的固有特性解耦,让效率KPI重获意义。

五、采纳度KPI:三个务实的衡量维度

文章提出,简单的"使用量"统计(模型调用次数、活跃用户数、工作流执行次数)虽然直观实时,但随着自动化程度提升,人工操作减少,使用量本身越来越难以反映AI的真实影响。

5.1 速度拐点(Velocity Inflection)

在工业药物化学中,项目团队通常持续追踪关键优化参数(KOPs)(如活性、选择性、渗透性)随时间的变化曲线。

将数字工具的引入时间点标记在曲线上,若随后出现斜率的突变或不连续性,即为"速度拐点"——这是AI工具(结合团队策略)加速优化的客观证明。

正向数据(拐点明显)可以反馈给团队,强化信心并鼓励将工具延续到下一个项目;负向数据(曲线平坦)则是调整策略的信号。

5.2 旁路率(Bypass Rate)

制药研发的标准化合物优化级联(assay cascade)中,通常存在若干"门控实验"——必须通过才能进入下一阶段的测试。例如,肝微粒体稳定性实验(liver microsomes)是肝细胞实验(hepatocytes)的前置门控。

如果预测模型的置信度足够高,某些化合物可以直接跳过湿实验门控,进入下一级测试。

旁路率 = 基于高置信预测成功跳过湿实验门控的化合物数量或比例

这个KPI是一个双重指标:

  • • 效率维度:节省了多少时间和成本?
  • • 信任维度:团队愿意"押注"在预测上的程度,反映了对模型的真实信赖程度。

5.3 内部净推荐值(Internal NPS, iNPS)

净推荐值(Net Promoter Score)是客户体验管理领域的经典工具,核心问题只有一个:

"您有多大可能向同事推荐这个工具?"(0-10分)

将其移植到内部R&D工具评估,即得到iNPS。项目团队是CADD工具的"客户",高iNPS是工具在组织内未来扩散的领先指标(leading indicator)。相比其他指标,iNPS还可以借鉴服务业多年的丰富经验积累。


六、战略KPI详解:按工具类型分述

6.1 虚拟筛选(Virtual Screening)

为什么富集因子不够用?

富集因子(enrichment factor)只能衡量虚拟命中物在已知活性化合物库中的排名效率,而完全无法反映"找到的化学骨架有没有价值"这一核心问题。

推荐的战略KPI

① 团队采纳率(Team Uptake Rate)
定义:AI推荐的命中物中,被药物化学家实际选择进行进一步优化的比例。

技术上活跃但结构上毫无吸引力的命中物(被团队忽视)对项目没有任何价值。团队采纳率是比命中率更真实的"价值过滤器",虽然受到认知质量和时机等复合因素影响,但仍是重要参考。

建议实施方式:VS活动应尽量与湿实验HTS并行开展,以校正靶标偏差;筛选大型虚拟化学空间时,建议至少获取/合成数百个化合物进行验证。

② 每验证命中成本(Cost per Validated Hit)
定义:总筛选成本(计算成本 + 合成成本)除以生物学验证命中簇数量。

注意:计算方法初看成本低,但需计入软件许可费、假阳性命中物的复杂合成成本等隐性开销。此KPI有助于推动筛选技术的成本效益优化,避免为了"看起来省钱"而选择实际上价值较低的方案。

6.2 生成式AI(Generative AI)

生成式AI面临一个独特的评估困境:没有真实标签(ground truth)可以对标。因此,技术指标(有效性、合成可及性评分)大多只是代理指标,而非真正衡量业务影响的指标。

推荐的战略KPI:新颖性加权影响(Novelty-Weighted Uptake)

定义:满足以下两个条件的已合成化合物数量:

  1. 1. 来源可溯:化合物思路或骨架能与GenAI的建议明确关联;
  2. 2. 满足新颖性阈值:与项目现有化学空间的Tanimoto相似度 < 0.8(或其他预设阈值)。

为什么不用简单的"完全匹配"或"宽松归因"?

  • • 严格的完全匹配低估了影响:团队总会对AI建议进行修改和迭代,切断了可溯源性;
  • • 过松的归因高估了影响:会将显而易见的类似物错误地记功于AI。

新颖性加权确保KPI奖励的是真正有创新价值的建议,而非对已知结构的简单变奏。这也解决了一个核心问题:GenAI与团队自主设计之间的化学空间重叠往往较小,需要明确的相似度阈值来界定"独立贡献"的边界。

6.3 ADME性质预测模型

目标不只是预测准确,而是支持决策

对ADME预测模型而言,高R²和低MAE是必要条件,但不是充分条件。静态测试集的表现往往无法反映真实项目中的预测效用。

文章建议采用时间分割评估(time-split evaluation):使用化合物合成时实际可用的模型版本进行回溯预测,模拟前瞻性表现,更贴近真实部署场景。

推荐的战略KPI:平均性质偏移(Mean Property Shift)

定义:追踪已合成化合物关键终点(代谢稳定性、渗透性、溶解度等)的移动平均值随时间的变化趋势。

若ADME预测模型真正发挥了作用,这条曲线应随时间向目标方向漂移。若曲线持平,说明存在以下两种失败之一:

  • • 技术失败:模型质量本身不足(时间分割R²/MCC偏低);
  • • 文化失败:模型质量足够,但团队根本没有用它来过滤设计方案。

这一区分对于管理决策至关重要:前者需要改进模型,后者需要改进培训与推广策略。

此外,文章还强调了核心运营KPI的重要性:服务正常运行时间、预测框架的鲁棒性、响应速度——这些是确保工具被实际使用的基础设施保障。


七、七大战略KPI汇总

应用领域
KPI名称
定义与测量方法
战略目标
虚拟筛选
团队采纳率
AI推荐命中物被化学家选用进行合成或测试的比例
衡量虚拟命中物的感知价值,超越理论富集指标
虚拟筛选
每验证命中成本
总筛选成本(计算+合成)除以生物学验证命中簇数
确保AI筛选相对传统方法的成本效益
生成式AI
新颖性加权影响
来源于GenAI且满足新颖性阈值(Tanimoto<0.8)的已合成化合物数量
量化系统对新颖化学物质的贡献(创新),而非简单的类似物挖掘
ADME/性质预测
平均性质偏移
已合成化合物关键终点(代谢稳定性等)随时间变化的移动均值
评估预测模型是否切实引导项目向目标性质方向推进
采纳度
速度拐点
关键优化参数(KOPs)随项目时间变化的斜率突变
客观衡量工具是否加速了先导优化进程
采纳度
旁路率
基于高置信预测成功跳过湿实验门控的化合物比例
衡量效率收益与团队对预测可靠性的信任程度
采纳度
内部净推荐值(iNPS)
"您有多大可能向同事推荐这个工具?"(0-10分)
用户满意度指标及未来组织推广的领先指示

八、未来展望:KPI的下一个进化方向

文章对未来研究提出了三个方向:

① 纵向关联研究
探索早期战略KPI(如速度拐点、旁路率)与顶线交付物(效率、速度)之间的因果关系,使KPI真正成为成功的可靠预测指标,而非结果的被动记录。

② 可数字化评分的标准化
确定哪些数据因素(如结构可用性 vs 实验数据方差)最能预测靶标对AI工具的适应性,建立行业标准化评分体系,使跨项目、跨公司的比较成为可能。

③ 人机交互与信任的量化研究
信任是旁路率背后的关键心理机制。深入理解信任如何影响决策质量,将为下一代"增强智能"系统(augmented intelligence systems)的设计提供实证基础。

文章还特别提出了一个时间窗口的紧迫性:目前是利用前AI项目作为历史基线评估AI影响力的难得机会——随着时间推移,这一基线将永久消失。


写在最后

这篇文章解决了什么问题?

当前行业有大量文章讨论"AI模型有多准",却极少有人系统讨论"AI工具有没有真正改变研发结果"。本文填补了这一关键空白,将评估框架从技术验证提升到战略影响层面。

哪些观点最值得关注?

  1. 1. "旁路率"是一个极其精妙的双重指标——它同时测量了效率(跳过了多少湿实验)和文化(团队有多信任AI预测)。效率好测,文化难量,旁路率用一个数字把二者合并了。
  2. 2. "可数字化评分"的提案高度原创,若能形成行业标准,将从根本上改变数字项目与传统项目比较的方法论困境。
  3. 3. 对Goodhart定律的引用体现了作者的自我批判精神——他们在推广KPI的同时,也在警告KPI的滥用风险。这种双重视角在行业文章中较为罕见。

局限性

文章本身也坦诚,所提出的KPI并非完美工具,可能在某些情况下过度简化复杂的科学过程。此外,由于所有作者均就职于应用AI工具的药企,存在一定的利益相关性(conflict of interest),读者在参考时可适当考量。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除