DRUGAI
许多关键技术挑战——包括开发可加速工业进程的新分子、发现可用于能量存储与气候变化缓解的新材料——都要求科学家和工程师在原子尺度上进行设计。传统的实验发现与设计过程极为耗时,从概念提出到规模化制造往往需要几十年。
为加速这一过程,Meta Fundamental AI Research(FAIR)团队与美国能源部劳伦斯伯克利国家实验室(Berkeley Lab)、普林斯顿大学、Genentech(罗氏集团成员)、斯坦福大学、剑桥大学、卡内基梅隆大学、纽约大学、洛斯阿拉莫斯国家实验室以及加州大学伯克利分校等机构开展合作,正在研发高精度且具通用性的机器学习模型,以预测原子尺度下的运动与行为,从而大幅缩短分子与材料的研发周期,释放科学创新的新潜力。
Meta FAIR团队很高兴发布一项全新的密度泛函理论(DFT)数据集——Open Molecules 2025(OMol25)。该数据集拓展了 Meta 面向开放科学的模拟数据集家族,其中包括 Open Catalyst 2020–2022、Open DAC 2023 以及 Open Materials 2024,而 OMol25 将这一体系首次扩展至分子化学领域。
密度泛函理论等基础量子化学方法可以用于预测分子和材料在原子尺度下的性质,尤其适用于描述化学键断裂与形成等复杂情境。作为迄今为止规模最大、种类最丰富的高精度量子化学计算数据集,OMol25 涵盖了生物分子、金属配合物、电解质等体系,为在医疗健康和能源存储等领域实现前所未有的原子级精确设计提供了强大支持。
OMol25 数据集基于高性能量子化学程序包 ORCA(6.0.1 版本)构建,包含了以往难以模拟的大体系原子结构。此前的分子数据集规模较小,模拟对象通常仅包含 20 到 30 个原子,元素种类有限。而 OMol25 总计耗费60 亿核小时计算资源,支持最多大 10 倍的体系规模,涉及多种元素间的复杂相互作用,标志着原子尺度建模迈出了关键一步。

分子化学是现代社会诸多领域(如药物、能源、农业)的核心。进一步的发展依赖于新分子的设计与发现。尽管密度泛函理论(DFT)因其高精度成为主流方法,但其计算成本极高,限制了其在大规模模拟中的应用。
研究人员希望通过机器学习原子势(MLIP)方法以 DFT 精度实现更高效模拟。然而,构建具备广泛适应性的模型仍受限于缺乏高质量、多样性的训练数据。已有的数据集化学多样性不足,结构复杂度有限,且原子数量普遍较少。
为此,Meta FAIR 发布了 Open Molecules 2025(OMol25)数据集,包含逾 1 亿条高精度 DFT 计算,涉及 83 种元素、复杂电荷与自旋状态、多构象、溶剂效应和反应结构等,最多可达 350 原子。研究人员同时提出一套针对关键化学任务的评估体系,鼓励社区共同推进分子级机器学习研究。
数据集构建
OMol25 覆盖四大化学子域:
生物分子:提取蛋白–配体、蛋白–核酸等片段,并通过分子动力学处理形成合理构象。
金属配合物:基于 Architector 自动生成多种金属–配体结构,覆盖不同氧化态、自旋态和构型。
电解质:使用分子动力学模拟溶液结构,采样多种溶剂和离子环境,并考虑反应路径和电子转移。
社区数据集整合:统一重计算 QM9、ANI、GEOM 等常用数据集以保证 DFT 精度一致性,并扩展反应路径插值结构。

所有计算采用 ωB97M-V/def2-TZVPD 方法,通过 Meta 内部云平台运行,总计耗费 60 亿核小时。


评估任务
为全面检验模型泛化能力,研究人员设计了如下原子尺度任务(每项评估均基于至少 1000 个结构):
蛋白–配体相互作用:评估结合能与作用力精度。
配体构象应变:考察活性构象与全局最稳定构象间能差。
构象预测:测试模型是否能找出最低能构象及其排序能力。
质子化能量:评估不同质子化态间能差。
电离能/电子亲和能:比较不同电荷态下能量与力场差异。
自旋态能隙:评估金属配合物不同自旋态间能量差。
距离缩放行为:测试短程与长程非共价相互作用下的能量变化趋势。

基线模型
研究人员训练并评估了多种代表性 GNN 模型(如 eSEN、GemNet-OC、MACE),部分模型引入电荷与自旋编码以适应复杂体系。实验发现:
保守模型优于直接预测模型;
大模型明显优于小模型;
全数据训练结果优于子集训练(4M);
多数模型在蛋白质和中性有机分子上表现较好,金属配合物与电解质更具挑战。
实验结果
能量与力预测:eSEN-md 模型在全数据集上平均误差分别为 1.2 meV/atom 与 12.3 meV/Å,优于其他模型。
任务表现:构象预测与配体应变任务基本达到化学精度(<1 kcal/mol);电离能、自旋态和长程距离预测仍面临挑战。
模型对数据域的适应性:生物分子与中性有机体系预测误差最小,金属与电解质误差较大。


未来展望
OMol25 是首个同时涵盖有机、无机和生物分子的大规模 DFT 数据集,但仍存在空白(如放射性元素、中间自旋态、聚合物等)。研究人员计划进一步拓展数据覆盖面,开发更精细的模型结构以处理电荷、自旋与长程相互作用。此外,未来还将增加自由能与反应路径预测等更具挑战性的评估任务。
为促进社区参与,Meta FAIR 将推出公开排行榜,支持模型开发、预训练和微调。研究人员期望 OMol25 能成为加速原子尺度设计的重要资源。
整理 | WJM
参考资料
Levine, D.S., Shuaibi, M., Spotte-Smith, E.W., Taylor, M.G., Hasyim, M.R., Michel, K., Batatia, I., Cs'anyi, G., Dzamba, M., Eastman, P.K., Frey, N.C., Fu, X., Gharakhanyan, V., Krishnapriyan, A.S., Rackers, J.A., Raja, S., Rizvi, A., Rosen, A.S., Ulissi, Z.W., Vargas, S., Zitnick, C.L., Blau, S.M., & Wood, B.M. (2025). The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models.
https://ai.meta.com/blog/meta-fair-science-new-open-source-releases/
https://huggingface.co/facebook/OMol25
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢