DRUGONE
溶解度是药物设计、材料科学和环境研究中的关键性质。然而,实验数据的局限性和预测模型的不确定性,仍然制约着高精度溶解度预测的发展。研究人员在本文中提出了一种数据驱动的框架,用于在固有随机不确定性极限下实现有机分子的溶解度预测。该框架结合了大规模溶解度数据库、先进的机器学习方法以及不确定性量化策略,能够在广泛的化学空间中提供可靠的预测。研究结果表明,即使在固有不确定性存在的情况下,该方法仍然能够显著提高预测精度和稳定性,从而为药物发现与分子筛选提供重要支持。

分子溶解度对药物的生物利用度、材料的功能特性以及环境中的迁移行为有决定性影响。尽管已有多种实验和计算方法用于溶解度的测定,但实验数据获取耗时、昂贵且存在差异,而传统预测模型往往难以应对化学多样性和噪声数据带来的挑战。

研究人员指出,当前的一个关键问题在于 固有不确定性(aleatoric uncertainty) ——这种不确定性来源于实验误差和数据噪声,无法通过增加数据量完全消除。因此,在这种极限条件下建立可靠的预测模型,是推动溶解度研究走向实用化和可扩展化的重要一步。
结果
数据集构建与不确定性分析
研究人员整合了多个公开与专有数据库,形成了一个覆盖广泛化学空间的溶解度数据集。通过统计分析,研究人员量化了数据中的实验噪声水平,并验证了固有不确定性在不同类别分子中的差异。这一分析为后续模型的上限性能评估提供了基准。

机器学习模型性能
研究人员测试了包括图神经网络、Transformer 架构以及基于分子指纹的传统方法在内的多类模型。结果显示,图神经网络在捕捉分子结构与溶解度之间的复杂关系方面表现最佳,但其性能提升最终受限于数据本身的不确定性。模型的预测误差与理论上估算的固有不确定性下限高度一致,表明模型已接近最优性能极限。

不确定性量化与校准
为了提升预测的可靠性,研究人员引入了贝叶斯方法和集成学习框架,进一步量化模型预测中的不确定性。结果表明,模型不仅能够提供点预测,还能给出可信的置信区间。这对于在药物筛选等实际应用中规避错误决策至关重要。

案例研究:药物分子与材料化合物
在药物分子案例中,该方法成功识别了溶解性不足的候选物,避免了潜在的研发失败。在功能材料化合物的测试中,该框架能够准确区分高溶解性与低溶解性样本,为材料筛选提供了有效工具。

讨论
研究人员强调,本研究提出的数据驱动方法在固有不确定性极限下实现了溶解度预测的最优性能。其关键贡献包括:(1)通过大规模数据库和系统化分析揭示了溶解度预测的理论极限;(2)展示了先进机器学习模型在逼近这一极限方面的优势;(3)提出了可行的不确定性量化方法,为预测结果提供置信区间。
这些成果不仅推动了溶解度建模的理论发展,也为药物设计、材料发现和环境化学研究提供了实用工具。研究人员认为,未来工作可以进一步结合主动学习和实验验证,不断缩小数据噪声带来的限制,并探索如何在多任务、多模态数据中提升模型的泛化能力。
整理 | DrugOne团队
参考资料
Attia, L., Burns, J.W., Doyle, P.S. et al. Data-driven organic solubility prediction at the limit of aleatoric uncertainty. Nat Commun 16, 7497 (2025).
https://doi.org/10.1038/s41467-025-62717-7

内容为【DrugOne】公众号原创|转载请注明来源
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢