Nat. Mach. Intell. | 我们急需为AI药物发现建立现实世界的评估体系

作者：W. Patrick Walters 等（原载《Nat. Mach. Intell.》2024年）

机器学习正在驱动药物发现领域令人兴奋的创新，但我们也需要留意这一应用场景的特殊性。与其他拥有数百万样本的专用数据集领域不同，药物发现中已公开的数据集通常具有异构性、不平衡性、噪声大且生成成本高昂的特点¹。此外，机器学习在药物发现中的应用场景众多，需要熟悉多个科学学科，并且为高风险决策（如昂贵或耗时的实验）提供依据。由于缺乏标准化的、适合该领域的用于方法评估和比较的数据集、指南和工具，导致感知到的进展与实际影响力之间的差距日益扩大，这延缓了机器学习在药物发现中的采用。为弥合这一差距，我们认为，在现实环境中工作的行业科学家的独特专业知识，对于制定针对药物发现量身定制的基准测试方案十分重要。为此，作者已经与十家生物技术和制药公司的代表建立了独特的合作，但我们相信，要应对如此宏大的挑战，需要一项开放科学、跨行业和跨学科的努力。

专用的基准测试是引导机器学习社区进行更具影响力研究并取得突破性成果的强大工具。无偏评估的黄金标准是前瞻性盲基准测试，即在一个新生成的测试集上评估不同方法，而该测试集仅在结果公布后才会披露。药物发现中的一个著名例子是CASP（结构预测关键评估）²，它通过系统性地识别该领域中有价值的创新，实现了蛋白质结构预测的革命³。然而，药物发现中的数据获取成本高且耗时，这限制了广大研究界对盲审基准测试的可及性和可用性。

因此，机器学习社区依赖基于公开可用数据的静态基准测试来评估新方法。然而，静态基准测试的价值在其发布后会迅速降低。由于存在数据泄漏⁴，对已知测试集的评估更容易产生偏差，从而导致过于乐观的结果，而这些结果在现实世界的药物发现环境中无法复现。

在药物发现领域提出高质量的静态基准测试所需的跨学科专业知识，进一步加剧了这些问题。

由于竞争和知识产权方面的考虑，大型工业数据集很少公开，因此静态基准测试主要依赖诸如ChEMBL⁵等聚合公共来源（通常来自科学文献或专利）数据的数据库。尽管此类数据库拥有数百万化合物的数据，但针对特定任务、由一致流程生成的数据集规模，与大型制药机构内部的专有数据集相比通常较小⁶。从这些数据库中整理数据集，需要深入了解数据生成过程（如测定伪影的干扰或仪器检测的局限）和数据模态（如分子的立体化学模糊性）⁷。同样，构建一个机器学习任务需要理解其下游应用，以便该任务能反映现实世界药物发现环境的特征（即分布偏移或目标分布）。

药物发现的跨学科和高风险特性也增强了对稳健方法比较的需求。通常，在将新的机器学习方法与基线或先进方法进行比较时，统计分析可能完全缺失，或严谨性不足以得出确凿结论。优越性往往仅基于在多个重复实验或数据集上聚合得出的平均性能指标的改进而宣称。为了获得可靠的结论并提高可重复性，我们应该转而采用统计检验来证明性能抽样分布之间差异的显著性。

最后，单一的性能指标通常无法充分反映一个方法的效用。相反，我们必须采用一种综合性的方法，纳入药物发现科学家可用于决策的多个指标，并考虑不确定性估计、可解释性和计算效率等因素。

基准测试在机器学习社区中的重要性，以及在药物发现领域提出基准测试的内在困难，都凸显了迫切需要跨学科合作来推动基于机器学习的药物发现领域的有影响力研究。诸如MoleculeNet⁸和治疗数据共享平台⁹等基准测试成功地向更广泛的机器学习社区普及了药物发现，但已不足以推动进一步的发展¹⁰。

我们相信，一项开放科学、跨行业和跨学科的倡议将是解决上述挑战的第一步。未来，可以从以下三个主要支柱入手应对这些挑战：

一套推荐的基准测试数据集，代表药物发现中通常执行的任务。我们将评估现有数据集是否符合实验最佳实践，但也看到需要合作整理或生成新的、专用的数据集。
一套指南，涵盖数据集整理、方法评估（如数据集划分、评估指标）和方法比较（如统计检验）。
一套开源软件工具，以简化对最佳实践的采用。

我们认识到这项任务的复杂性，但为了加速和扩大机器学习方法在药物发现中的效果，我们必须弥合感知进展与现实影响之间的差距。

参考文献：Wognum, C., Ash, J.R., Aldeghi, M. et al. A call for an industry-led initiative to critically assess machine learning for real-world drug discovery. Nat Mach Intell 6, 1120–1121 (2024).

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Nat. Mach. Intell. | 我们急需为AI药物发现建立现实世界的评估体系

评论列表

评论