
一篇来自跨国药企科学家的重磅视角文章,系统提出针对AI驱动先导化合物优化的战略级KPI框架
文献来源:Theis T, Flohr S, Binch H, et al. "Strategic Key Performance Indicators for AI in Lead Optimization." ChemMedChem, 2026; 21:e202501089
开放获取:DOI: 10.1002/cmdc.202501089
作者机构:勃林格殷格翰 · 诺华 · 罗氏 · 阿斯利康 · Nuvisan · 默克KGaA · OpenEye/Cadence
一、为什么要读这篇文章?
近年来,AI技术以前所未有的速度渗透进制药研发的各个环节——从靶标发现、虚拟筛选,到分子生成、ADME性质预测。大量资本与人才涌入,"AI原生"(AI-native)药企也初步展现出超越传统同行的苗头。
然而,一个根本性问题长期被忽视:
我们究竟应该用什么指标,来衡量AI在药物研发中的真实价值?
目前业界普遍依赖的技术指标(如预测精度R²、富集因子、ROC-AUC)本质上只是模型质量的体检报告,并不能回答管理层真正关心的问题:这个AI工具,有没有加快我们的研发进度?有没有减少失败化合物的合成?有没有帮我们更快把候选药物推进临床?
本文由来自7家全球顶级制药及软件公司的科学家联合撰写,作为欧洲药物化学联合会计算与药物化学工作组(EFMC²)的集体发声,系统性地回答了这一问题。这是目前该领域最具实践指导意义的战略KPI框架之一。
二、背景:KPI在药物研发中的历史演变
2.1 知识型工作者的管理难题
文章开篇援引管理学奠基人Peter Drucker的核心观点:知识型工作依赖自主性与创新,不同于流水线式的工业劳动。药物研发恰恰是知识工作的典型代表——成功依赖创造力与迭代试错,而非标准化流程的机械执行。
Drucker那句著名的格言在此显得尤为贴切:
"There is nothing more wasteful than becoming highly efficient at doing the wrong thing."
(没有什么比高效地做错误的事更浪费的了。)
在药物研发中,"做正确的事"意味着选对靶标、找到真正有潜力的先导化合物——而非仅仅让AI模型跑得更快、预测得更准。
2.2 十年前的行业实践
文章回顾了约十年前各大药企评估计算化学(CADD)科学家贡献的方法:
• 百时美施贵宝(BMS):建立"影响力类别"数据库,从"提供数据"到"发挥关键作用"分级记录,由课题组长和科学家本人共同维护,定期交叉评审。 • 葛兰素史克(GSK):组织层面记录关键贡献,而非个人层面,聚焦化合物设计与发表。 • 默克(Merck):采用定性反馈,核心问题是"这个设计工作有没有帮助团队取得成功?" • 勃林格殷格翰(Boehringer):定期收集团队对CADD成员影响力的反馈。
这些实践的共同特点是:以定性判断为主,量化程度低。即便引入了影响力类别,其赋值本身仍是主观判断。
2.3 从定性到定量:时代的转变
随着AI工具的规模化部署,这种模糊的评估方式已难以为继。管理层需要量化的证据来支撑投资决策;研发团队需要明确的信号来调整工具应用策略。KPI的引入势在必行,但如何设计好KPI,本身就是一门学问。
三、KPI的固有局限:先认清陷阱,再谈应用
文章并未回避KPI的缺陷,这也是本文视角难能可贵之处。
3.1 Goodhart定律的威胁
经济学家Charles Goodhart提出的定律已成为管理学经典:
"When a measure becomes a target, it ceases to be a good measure."
(当一个指标变成目标,它就不再是好指标了。)
一旦KPI与绩效挂钩,组织就会不可避免地向指标靠拢,甚至扭曲行为来"刷数据"。这在高目标一致性、高目标不确定性的组织(如制药R&D)中尤为突出。
3.2 其他常见陷阱
| 追踪成本 | |
| 樱桃采摘 | |
| 激励错位 | |
| 扼杀创新 | |
| 成熟度错配 |
文章的结论并非"不要KPI",而是:KPI应当被主动、审慎地设计,而非被动、机械地套用。在AI驱动的创新期,避免过度测量与微观管理至关重要。
四、核心难题:"数字项目" vs "传统项目"的比较困境
所有公司都渴望证明AI对顶线效率KPI(如"进入临床的时间"或"每个临床候选物的成本")产生了影响。但这种证明面临一个根本性的方法论难题。
4.1 信噪比问题
与制造业不同,药物发现本质上是特异性的(idiosyncratic)——每个项目的靶标类别、模态、数据可用性都大相径庭。理想的对照实验(两支相同团队研究同一靶标)永远不会存在。
这带来了严重的混淆变量问题:
• 一个"数字项目"推进更快,究竟是因为AI工具更好,还是因为靶标本身更易成药? • 历史基线项目的时代背景、技术条件、竞争格局各异,如何做到"苹果对苹果"的比较?
4.2 提案:靶标"可数字化评分"(Digitizability Score)
为解决上述问题,文章创造性地提出了一个新概念——Digitizability Score(可数字化评分),类比于药物发现领域已有的"成药性评分"(druggability)和"配体化性评分"(ligandability)。
该评分综合考量以下因素:
• 共晶结构(co-crystal structures)的可用性 • 已知配体的数量与质量 • 靶标类别的先例程度(target class precedence)
该评分的双重价值:
1. 前瞻性:帮助团队在项目启动前筛选最适合AI介入的靶标,最大化数字工具的杠杆效应; 2. 回顾性:在项目结束后,作为归一化因子,将AI的实际贡献与靶标本身的固有特性解耦,让效率KPI重获意义。
五、采纳度KPI:三个务实的衡量维度
文章提出,简单的"使用量"统计(模型调用次数、活跃用户数、工作流执行次数)虽然直观实时,但随着自动化程度提升,人工操作减少,使用量本身越来越难以反映AI的真实影响。
5.1 速度拐点(Velocity Inflection)
在工业药物化学中,项目团队通常持续追踪关键优化参数(KOPs)(如活性、选择性、渗透性)随时间的变化曲线。
将数字工具的引入时间点标记在曲线上,若随后出现斜率的突变或不连续性,即为"速度拐点"——这是AI工具(结合团队策略)加速优化的客观证明。
正向数据(拐点明显)可以反馈给团队,强化信心并鼓励将工具延续到下一个项目;负向数据(曲线平坦)则是调整策略的信号。
5.2 旁路率(Bypass Rate)
制药研发的标准化合物优化级联(assay cascade)中,通常存在若干"门控实验"——必须通过才能进入下一阶段的测试。例如,肝微粒体稳定性实验(liver microsomes)是肝细胞实验(hepatocytes)的前置门控。
如果预测模型的置信度足够高,某些化合物可以直接跳过湿实验门控,进入下一级测试。
旁路率 = 基于高置信预测成功跳过湿实验门控的化合物数量或比例
这个KPI是一个双重指标:
• 效率维度:节省了多少时间和成本? • 信任维度:团队愿意"押注"在预测上的程度,反映了对模型的真实信赖程度。
5.3 内部净推荐值(Internal NPS, iNPS)
净推荐值(Net Promoter Score)是客户体验管理领域的经典工具,核心问题只有一个:
"您有多大可能向同事推荐这个工具?"(0-10分)
将其移植到内部R&D工具评估,即得到iNPS。项目团队是CADD工具的"客户",高iNPS是工具在组织内未来扩散的领先指标(leading indicator)。相比其他指标,iNPS还可以借鉴服务业多年的丰富经验积累。
六、战略KPI详解:按工具类型分述
6.1 虚拟筛选(Virtual Screening)
为什么富集因子不够用?
富集因子(enrichment factor)只能衡量虚拟命中物在已知活性化合物库中的排名效率,而完全无法反映"找到的化学骨架有没有价值"这一核心问题。
推荐的战略KPI:
① 团队采纳率(Team Uptake Rate)
定义:AI推荐的命中物中,被药物化学家实际选择进行进一步优化的比例。
技术上活跃但结构上毫无吸引力的命中物(被团队忽视)对项目没有任何价值。团队采纳率是比命中率更真实的"价值过滤器",虽然受到认知质量和时机等复合因素影响,但仍是重要参考。
建议实施方式:VS活动应尽量与湿实验HTS并行开展,以校正靶标偏差;筛选大型虚拟化学空间时,建议至少获取/合成数百个化合物进行验证。
② 每验证命中成本(Cost per Validated Hit)
定义:总筛选成本(计算成本 + 合成成本)除以生物学验证命中簇数量。
注意:计算方法初看成本低,但需计入软件许可费、假阳性命中物的复杂合成成本等隐性开销。此KPI有助于推动筛选技术的成本效益优化,避免为了"看起来省钱"而选择实际上价值较低的方案。
6.2 生成式AI(Generative AI)
生成式AI面临一个独特的评估困境:没有真实标签(ground truth)可以对标。因此,技术指标(有效性、合成可及性评分)大多只是代理指标,而非真正衡量业务影响的指标。
推荐的战略KPI:新颖性加权影响(Novelty-Weighted Uptake)
定义:满足以下两个条件的已合成化合物数量:
1. 来源可溯:化合物思路或骨架能与GenAI的建议明确关联; 2. 满足新颖性阈值:与项目现有化学空间的Tanimoto相似度 < 0.8(或其他预设阈值)。
为什么不用简单的"完全匹配"或"宽松归因"?
• 严格的完全匹配低估了影响:团队总会对AI建议进行修改和迭代,切断了可溯源性; • 过松的归因高估了影响:会将显而易见的类似物错误地记功于AI。
新颖性加权确保KPI奖励的是真正有创新价值的建议,而非对已知结构的简单变奏。这也解决了一个核心问题:GenAI与团队自主设计之间的化学空间重叠往往较小,需要明确的相似度阈值来界定"独立贡献"的边界。
6.3 ADME性质预测模型
目标不只是预测准确,而是支持决策
对ADME预测模型而言,高R²和低MAE是必要条件,但不是充分条件。静态测试集的表现往往无法反映真实项目中的预测效用。
文章建议采用时间分割评估(time-split evaluation):使用化合物合成时实际可用的模型版本进行回溯预测,模拟前瞻性表现,更贴近真实部署场景。
推荐的战略KPI:平均性质偏移(Mean Property Shift)
定义:追踪已合成化合物关键终点(代谢稳定性、渗透性、溶解度等)的移动平均值随时间的变化趋势。
若ADME预测模型真正发挥了作用,这条曲线应随时间向目标方向漂移。若曲线持平,说明存在以下两种失败之一:
• 技术失败:模型质量本身不足(时间分割R²/MCC偏低); • 文化失败:模型质量足够,但团队根本没有用它来过滤设计方案。
这一区分对于管理决策至关重要:前者需要改进模型,后者需要改进培训与推广策略。
此外,文章还强调了核心运营KPI的重要性:服务正常运行时间、预测框架的鲁棒性、响应速度——这些是确保工具被实际使用的基础设施保障。
七、七大战略KPI汇总
八、未来展望:KPI的下一个进化方向
文章对未来研究提出了三个方向:
① 纵向关联研究
探索早期战略KPI(如速度拐点、旁路率)与顶线交付物(效率、速度)之间的因果关系,使KPI真正成为成功的可靠预测指标,而非结果的被动记录。
② 可数字化评分的标准化
确定哪些数据因素(如结构可用性 vs 实验数据方差)最能预测靶标对AI工具的适应性,建立行业标准化评分体系,使跨项目、跨公司的比较成为可能。
③ 人机交互与信任的量化研究
信任是旁路率背后的关键心理机制。深入理解信任如何影响决策质量,将为下一代"增强智能"系统(augmented intelligence systems)的设计提供实证基础。
文章还特别提出了一个时间窗口的紧迫性:目前是利用前AI项目作为历史基线评估AI影响力的难得机会——随着时间推移,这一基线将永久消失。
写在最后
这篇文章解决了什么问题?
当前行业有大量文章讨论"AI模型有多准",却极少有人系统讨论"AI工具有没有真正改变研发结果"。本文填补了这一关键空白,将评估框架从技术验证提升到战略影响层面。
哪些观点最值得关注?
1. "旁路率"是一个极其精妙的双重指标——它同时测量了效率(跳过了多少湿实验)和文化(团队有多信任AI预测)。效率好测,文化难量,旁路率用一个数字把二者合并了。 2. "可数字化评分"的提案高度原创,若能形成行业标准,将从根本上改变数字项目与传统项目比较的方法论困境。 3. 对Goodhart定律的引用体现了作者的自我批判精神——他们在推广KPI的同时,也在警告KPI的滥用风险。这种双重视角在行业文章中较为罕见。
局限性
文章本身也坦诚,所提出的KPI并非完美工具,可能在某些情况下过度简化复杂的科学过程。此外,由于所有作者均就职于应用AI工具的药企,存在一定的利益相关性(conflict of interest),读者在参考时可适当考量。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢