DRUGAI

尽管机器学习力场(Machine Learning Force Fields, MLFFs)在固体与小分子体系中已得到广泛应用,但在液体电解质模拟中的应用仍存在显著空白,而液体电解质正是当前商业锂离子电池中的关键组成部分。在本研究中,研究人员提出了由字节跳动人工智能团队开发的分子模拟加速器——BAMBOO(ByteDance Artificial intelligence Molecular simulation Booster),这是一个面向分子动力学模拟的预测型框架,并展示了其在锂电池液体电解质模拟中的应用潜力。


研究人员构建了一个以物理为灵感的图不变变换器(graph equivariant transformer)架构,作为 BAMBOO 的核心,用于从量子力学模拟数据中学习。此外,研究人员引入了一种集成知识蒸馏方法,并将其应用于机器学习力场,以降低分子动力学模拟中观测值的波动。研究人员还提出了一种密度对齐算法,使 BAMBOO 的预测结果更贴近实验测量值。


BAMBOO 在预测液体电解质的关键性质方面表现出先进的准确性,包括密度、粘度与离子电导率,覆盖多种溶剂与盐类组合。当前模型在超过15种化学物种的训练基础上,实现了平均密度预测误差仅为 0.01 g cm⁻³ 的优异性能,接近实验水平。

液体电解质是当前大多数商业锂离子电池中不可或缺的组成部分。现有商业电解质多为碳酸酯体系,通常包含五种以上成分,以满足不同性能需求。通过实验手段探究分子间相互作用进行电解质设计,不仅成本高、耗时长,还高度依赖化学家的经验与直觉。这些限制使得从实验室验证到实际产品的转化充满挑战,尤其是在优化多组分液体电解质性质时,复杂度呈指数级上升。


原子级模拟是一种高效、灵活且相对可及的替代方案。然而,可靠模拟需兼顾高精度、长时间尺度与大空间尺度。量子力学模拟虽精度高,但计算成本极高,难以应用于如液体电解质这类复杂大体系。经典力场则虽计算高效,但常常难以准确刻画复杂的溶剂化结构和动态行为。因此,迫切需要一种在准确性与计算效率之间取得平衡的通用方法,以应对不同溶剂、盐类及其浓度下液体电解质的建模需求。


近年来,研究人员日益采用机器学习力场(MLFFs)进行分子动力学模拟。MLFFs 不仅计算速度优于量子力学方法,还能以更高精度拟合量子数据。其发展呈现出两大趋势:一是模型结构逐步引入图神经网络与变换器等先进架构,向具旋转等变性的表达演进;二是力场设计日益融入基于物理原理的相互作用建模,如静电、色散与自旋效应等。


尽管“通用型 MLFF”的构想已在固体材料和生物有机分子领域取得进展,但针对包含溶剂与离子的液体体系,尤其是液体电解质,尚缺乏一种能广泛准确预测多种性质的通用模型。这可能与液体电解质中复杂的局域结构有关,如溶剂分离离子对(SSIP)、接触离子对(CIP)和聚集体(AGG)等结构共存。虽然已有研究尝试将 MLFFs 应用于水体系、分子液体和离子液体,但专门聚焦于液体电解质的研究仍十分有限。


据研究人员了解,目前仅有极少数工作尝试使用 MLFFs 模拟液体电解质,且其在不同溶剂与盐类体系上的泛化能力尚未得到充分验证,准确性也存在局限。


除应用稀缺外,MLFFs 在实际模拟中还面临两大挑战:一是模拟容易崩溃或结果波动大,这与机器学习模型中的随机性有关;二是多数基于深度学习的 MLFFs 仅依赖量子力学数据训练,难以保证对实验结果的准确还原。尽管已有工作尝试引入可微分分子模拟优化力场参数,但其计算开销大,且可能导致模型在有限实验数据上过拟合,因此尚难广泛应用于基于实验对齐的深度 MLFF 优化中。


为解决上述问题,研究人员提出了 BAMBOO(ByteDance Artificial intelligence Molecular simulation Booster) 框架,专为有机液体,特别是液体电解质的 MLFF 构建与分子动力学模拟而设计。其核心方法创新包括:

  • 构建了融合图等变变换器(GET)架构与基于物理的半局域、静电、色散相互作用分离的 MLFF 模型;

  • 引入集成知识蒸馏算法,有效降低 MLFF 模拟结果的波动性;

  • 提出物理驱动的密度对齐算法,使模拟结果与实验数据更一致,且仅需极少实验数据,即可在未参与对齐的新体系上展现良好泛化能力。

BAMBOO 在密度、粘度和离子电导率等多项关键性质预测上表现出色,具备强大的跨体系预测能力,是一个可用于分子结构设计驱动的电解质研发有力工具。


结果

图1a展示了BAMBOO的整体流程。研究人员首先从液体电解质中采样局部原子环境,并构建成气相簇,随后通过密度泛函理论(DFT)计算其能量、原子力和电荷。本研究所用的DFT数据集涵盖多种溶剂和盐类,尤其包括锂电池电解质中常见的环状碳酸酯、线性碳酸酯、Li⁺阳离子及FSI⁻、TFSI⁻阴离子等。为了展示模型的泛化能力,还加入了乙醇、丙酮和工程液体Novec 7000等有机溶剂。


研究人员使用这些DFT计算结果训练多个初始参数不同的图神经网络(GNN),并通过集成知识蒸馏方法,将多个GNN融合为一个统一模型,从而降低分子动力学模拟结果的波动性。随后,研究人员使用实验测得的密度数据对模型进行对齐,以提高与实验结果的一致性。


图1b描述了BAMBOO在能量计算中对半局域、静电和色散相互作用的拆分方式。模型输入为原子类型和三维坐标。半局域能量由包含GET层的GNN负责建模;静电能量通过预测原子部分电荷并结合电荷平衡方法计算;色散能量则基于DFT-D3修正直接获得。最终,总能量由三类能量项相加得到,力的计算满足牛顿第三定律。


图1c–e展示了GET层的架构,其设计灵感来源于TorchMD-NET。模型初始化包括原子和边的标量及向量表示,随后在每个GET层中通过变换器机制在原子邻域间交换信息。模型利用内积等方式保持旋转等变性,实现标量与向量间的信息融合。该设计使得模型能高效捕捉原子局部环境特征。


在图2a–c所示的消融实验中,研究人员评估了等变特征、变换器结构和电荷预测对性能的影响。结果表明,GET相较于不含变换器的GE模型或不具等变性的GIT模型具有更低的能量和力预测误差。此外,尽管去除电荷预测会在力预测上略优,但整体能量误差显著上升,说明静电建模对于准确捕捉长程相互作用至关重要。综合来看,GET在密度预测上的表现最为优异,验证了其在液体电解质模拟中的适用性。


在与现有GNN力场模型的对比中,BAMBOO展现出更高的效率。研究人员通过在图结构中引入注意力机制,并去除部分冗余网络连接和参数,使模型计算复杂度显著降低。在使用LAMMPS引擎进行分子动力学模拟时,BAMBOO相比ViSNet、Allegro、MACE及TorchMD-Net等模型实现了更快的推理速度。在单张NVIDIA A100 GPU上,BAMBOO可实现每天200万步的模拟速度,且支持多GPU并行扩展,将在未来版本中发布。

集成知识蒸馏与密度对齐

图1f展示了BAMBOO所采用的“集成知识蒸馏”策略,旨在应对机器学习中的随机性对分子动力学(MD)模拟结果带来的波动问题。研究人员发现,即便多个图神经网络(GNN)在验证集上表现相近,其所生成的宏观性质(如密度)在模拟中仍存在显著差异。这主要源于两方面:一是MD本身具随机性,二是在液体电解质建模中,模型需从训练阶段的气相簇推广至实际的液相体系,存在明显的“域外预测”问题,增加了模型行为的不确定性。


为此,研究人员使用多个独立训练的MLFF模型,对MD轨迹的能量和力进行预测,然后对结果取平均并用于优化模型。这种集成蒸馏方法无需新增DFT标签,便显著降低了模拟中密度预测的波动性,提升了模型稳定性与可靠性,且适用于各种体系。


在训练BAMBOO的最后阶段,研究人员引入“密度对齐”策略(图1g),以减少MLFF预测结果与实验数据之间的系统偏差。这一偏差可能来自DFT计算设置的系统误差,以及训练数据与真实体系(如大规模液体结构)之间的差异。密度对齐通过实验密度与模拟压力之间的物理联系,引导对分子间作用力的微调,从而优化力场参数。尽管仅使用了13个实验数据点,BAMBOO便将密度误差从约0.05 g/cm³ 降至约0.01 g/cm³,且该校准效果可迁移至未参与对齐的液体体系,包括具有不同官能团的溶剂及高浓度电解液。


更进一步,研究人员发现密度对齐不仅提升了密度预测的准确性,也改善了其他关键性质如粘度和离子电导率的预测精度。在多种溶剂与电解质体系中,BAMBOO平均密度误差为0.01 g/cm³,粘度误差为17%,电导率误差为26%,整体表现已达到当前主流模拟方法的先进水平,并接近实验误差范围。


除了简单体系,BAMBOO还成功应用于由4到8种组分组成的多组分电解质体系,保持了与简单体系相当的预测精度,进一步证明了密度对齐方法的迁移能力。同时,BAMBOO在这些复杂体系中的预测性能优于传统的OPLS-AA经典力场,显示出其在真实电解质设计中的潜力。


在模型泛化能力方面,BAMBOO能稳定模拟结构特征与训练集相似的未见分子,如含有羟基、羰基和双键的化合物。但对于含有新元素或新型键类型(如叁键)的分子,模型在长时间模拟中仍存在不稳定问题。例如在对氟代溶剂的模拟中,BAMBOO在较宽温度范围内保持了稳定性,且预测密度的准确性与其结构相似性密切相关。


为提升MLFF对未见体系的适应能力,研究人员指出可通过两种路径进一步发展:其一是扩大训练集规模,进行多样性预训练,虽然此法广泛应用于“通用力场”研究中,但仍难保证稳定模拟所有分子;其二是将机器学习与物理约束相结合,例如采用机器学习对传统力场函数参数化,从而提升稳定性,但可能限制其在涉及化学反应(如断键)的场景中的应用。因此,研究人员强调未来需开发既具广泛适用性又具反应建模能力的机器学习力场模型。同时,也有研究表明,基于图神经网络的模型在分子泛化方面优于局部描述子方法,这为力场模型的架构设计提供了有益启示。


溶剂化结构与原子部分电荷

除了对宏观性质的高精度预测外,BAMBOO 还具备显式预测原子部分电荷的能力,使其能进一步揭示液体电解质中的溶剂化结构信息。

图3展示了在不同浓度(1.12 m 至 3.74 m)LiFSI 电解质中的Li⁺和FSI⁻原子电荷分布直方图。三种电解质体系中,溶剂DMC与EC的质量比均保持为51:49。Li⁺电荷分布在所有浓度下都呈现出三个主峰,位置分别约为0.622、0.626与0.632,随着盐浓度升高,最显著的主峰从高电荷区逐渐向低电荷区移动,说明Li⁺所处的局部环境在不断发生变化。


为解释该变化,研究人员对MD模拟末尾3纳秒的轨迹进行了分析,识别了不同类型的溶剂化结构,并统计了各类结构的比例。结果表明,Li⁺第一溶剂化壳层的半径约为2.2 Å,配位数约为4。溶剂化结构分为三类:SSIP(仅由溶剂分子组成)、CIP(含有一个阴离子)以及AGG(包含两个及以上阴离子的聚集结构)。随着浓度升高,SSIP比例显著下降,而CIP与AGG比例持续上升,对应了Li⁺电荷分布主峰的变化趋势。


在Li⁺的溶剂化环境中,主要通过Li⁺–O的相互作用产生极化效应,从而影响局部的电荷分布。进一步地,研究人员分析了FSI⁻分子中各原子的电荷分布,发现其中某类氧原子呈现出三个重叠的分布峰,而其他原子在不同浓度下仅显示单一分布。这一现象可能源于FSI⁻分子中两类不同类型的氧原子,在较低浓度(如1.12 m)下,大多数阴离子未与阳离子或溶剂形成配对结构,因此这些氧原子的电荷差异主要反映了其分子内的结构特征。


随着盐浓度上升,第三个额外电荷峰逐渐增强,研究人员推测这与离子配对结构(CIP和AGG)的增加密切相关。这一现象说明 BAMBOO 不仅能够准确模拟静态结构和动力学行为,还能提供关于局部电荷分布与溶剂化结构演变之间关系的物理洞察。


讨论

本研究提出了一个面向液体电解质分子动力学模拟的机器学习力场(MLFF)框架。首先,研究人员构建了一个图等变变换器(GET)架构,融合了来自DFT计算的知识,将半局域、静电与色散相互作用进行分离建模。其次,研究人员在MLFF训练中引入了集成知识蒸馏方法,有效抑制了分子动力学模拟结果的波动。此外,研究人员还提出了基于物理的密度对齐策略,使模拟结果更贴近实验数据,并在密度之外的性质上也带来了改进,建立了微观与宏观之间的联系。


研究结果显示,该密度对齐策略在缩小模拟与实验差距方面效果显著。为进一步提升模型在电导率等其他性质上的表现,研究人员计划未来将对齐策略拓展至更多目标性质,以实现多尺度、多属性的协同优化。


本研究系统评估了BAMBOO在不同溶剂和液体电解质体系中的性能,结果表明,一个统一的 BAMBOO 模型即可在多种化学体系下高精度预测密度、粘度与离子电导率。目前,该模型已可稳定模拟多达15种化学物种的混合体系,具备良好的泛化能力,为多组分液体电解质的设计与优化提供了有力支持。


除了在预测宏观性质方面达到当前先进水平,BAMBOO 还能量化溶剂化结构与原子部分电荷之间的关联,帮助理解不同组分条件下的溶剂化调控机制,这些是传统经典力场或DFT难以触及的细节。与当前极化型经典力场相比,BAMBOO作为一种不依赖固定函数形式的机器学习力场,未来有望拓展至更复杂场景,如液相中的化学反应模拟。


研究人员希望本研究能够为开发面向大多数有机液体的通用型MLFF奠定基础,推动机器学习力场在更广泛的分子模拟任务中发挥作用。

整理 | WJM 

参考资料


Gong, S., Zhang, Y., Mu, Z. et al. A predictive machine learning force-field framework for liquid electrolyte development. Nat Mach Intell (2025). 

https://doi.org/10.1038/s42256-025-01009-7

内容中包含的图片若涉及版权问题,请及时与我们联系删除