MLIPs迈入自主设计与演化时代

AutoResearch-MLIP：让每一个假设、每一次失败，都成为下一轮研究的依据

一句话概括：AutoResearch-MLIP 以机器学习力场为研究对象，构建了一套自主科研闭环——智能体持续提出设计假设、修改代码、运行评估、记录失败，并以此指导下一步，整个演化过程有据可查、可以回溯。

自主科研的关键：让每一步都留下可追溯的记录

已有的科研智能体工作大多聚焦在工具调用、代码生成和自动运行实验上。AutoResearch-MLIP关注的是更进一步的问题：智能体能否形成真正意义上的研究过程——持续提出假设、修改代码、运行评估、读取结果、记录失败，并把这些记录带入下一轮？

评价这类系统，不能只看最终模型的分数。一个高分候选可能来自偶然的搜索；一次暂时的失败，往往反而为下一轮尝试提供灵感。真正需要检查的是完整的研究过程：每个想法怎么落到代码，评估结果如何影响了后续决策，哪些失败被记录，又改变了什么。

为什么选 MLIP 作为试验场

机器学习原子间势（machine-learned interatomic potentials，MLIPs）是一个理想的测试对象。一个 MLIP 由多个可以独立实现、组合和继承的设计模块构成——包括局域相互作用、读出层与组成建模、特征表示方式、长程能量项、周期图构造和训练目标。

这些模块不仅可以写成代码，还可以在分子动力学和周期性晶体任务上被定量评估。MLIP开发天然对应一个"提出假设 → 实现代码 → 评估结果 → 继承或放弃"的研究循环，是检验自主科研系统能否产生可追溯设计演化的合适试验场。

系统设计：让每个候选都来自受控的代码修改

AutoResearch-MLIP 的运行依托一套预定义的技能约束框架（skill-programmed harness），明确规定智能体的操作范围和行为边界。其中，MLIP-Evidence负责将论文、代码仓库和代码分析转化为结构化的设计证据；MLIP-Autoresearch 负责试验调度、评估对接、错误修复和继续决策。关键约束是：智能体只能修改候选MLIP的代码，不能更改评估器、数据划分或指标定义。

这套机制的核心作用是把"生成一个候选想法"变成"完成一次受控评估"。每个候选必须先被实现为代码修改，通过固定评估器，得到明确的结果记录，才进入继承、延迟或拒绝的后续流程——这是它进入可追溯研究轨迹的前提。

图 1｜AutoResearch-MLIP 的基本流程。左侧是传统的一次性候选生成流程；右侧是 AutoResearch-MLIP：设计树、证据与失败记录、评估规则共同约束智能体的全部操作，构成有边界的自主科研运行框架。

从一个近零 MLP 出发：40 代、280 个候选

实验从一个刻意设计得很弱的初始模型出发——基于原子间距的近零MLP，可以运行、可以微分，同时作为整个演化过程的评分基准。

此后进行了40代演化，每代提出10个方向，通常选择8个候选实现并评估，共积累280个已评估候选。图2展示了整体演化轨迹：灰点是每代所有已评估候选，蓝线是每代最高分候选，橙线是实际被选为下一轮起点的候选。

两条线并不总是重合——这正是AutoResearch-MLIP的核心设计之一：最高分候选和研究延续方向是两个独立的决策。前者作为证据保留，后者可以选择分数较低但借鉴意义更强的分支继续展开。

图 2｜40 代评估轨迹。蓝线为每代最高分候选，橙线为实际选为下一轮起点的候选；虚线标出周期材料评估模块加入的位置。

设计模块在代际传承中逐步积累

图 3 展示的不是分数，而是被选为延续起点的代码中实际保留了哪些设计模块。

演化路径从初始pair-distance MLP出发，依次加入局域消息传递、读出层与组成建模、角度/高阶/张量特征、长程能量项，最后在周期性晶体训练阶段引入包含镜像偏移信息的周期性结构。蓝色方块标注某个模块首次加入或发生实质变化的位置；浅色单元表示该模块在后续延续起点的代码中被继续保留。

设计元素的积累不是线性的——高分候选可以留存为证据，而延续方向未必是当前最高分的那条分支。

图 3｜被选为下一轮起点的代码中实际携带的模型组件。浅色单元为被继承的模块，蓝色方块为新增或有实质改动的模块。

失败不只是低分——它是下一步的边界

AutoResearch-MLIP中，失败不等于低分，而是一类包含约束信息的结果记录。每次失败、对照实验或局部改进，都会被明确标注，并限制下一轮探索可以尝试什么、需要绕开什么。

几个典型例子：早期部分生成分支劣于保留的父代候选；中期某些单一模块的改进没能提升总分；周期材料阶段，单纯调整训练日程、截断半径或残差尾项，均无法让分子模型迁移到周期材料。这些失败记录进入系统记忆，直接改变了后续的搜索方向。

正因如此，系统采用非贪心延续策略：高分候选留存为证据，实际展开的分支可以是分数更低但研究价值更高的方向。

周期材料阶段：验证实现路径，而非重新发现物理规律

周期边界条件本身不是新知识。这一阶段真正要检验的是：从分子任务演化出来的模型，是否把晶胞和周期镜像信息正确传入了图结构。

G026到G034的系列尝试均未产生稳定的周期性信号——调整训练参数、截断平滑和残差项都不奏效。G035 的图修复改变了图的构造方式：将周期镜像作为独立邻边保留，并让镜像偏移信息参与消息传递。修复后，周期性材料相关的指标出现明显跃升。

随后，系统并未把G038的高分直接视为原因明确的进步。G039批次的所有子代均未超过G038，对照重训的得分也有所下降。系统因此保留G038作为当前最优证据，同时选择分数略低但归因更清晰的G039分支继续展开。G040从这一分支出发，最终达到当前评估下的新前沿。

图 4｜周期图修复与归因验证后的性能恢复。上图展示 G035 之后周期材料指标的跃升；下图展示 G039 归因验证如何将证据保留与延续方向的选择分开处理。

外部基准：演化结果不只适用于内部评估

内部评估器仅用于指导演化方向，不代表通用性。为此，研究对第40代候选进行了独立的外部验证，与 NequIP、Allegro、CHGNet、MatGL-M3GNet 在相同短训练条件下进行对比，且外部基准的结果未参与任何延续决策。

在MD22（大分子动力学迁移性测试）上，最终候选的能量误差接近NequIP，力误差低于NequIP和Allegro。在 Sub-OMat24（周期结构外部子集）上，力误差优于所有对比基线，但能量校准不如专为材料预训练设计的 MatGL-M3GNet——这在预期之内。

AutoResearch-MLIP不声称演化出了通用势函数。这组结果说明的是：通过连续演化得到的候选，在不针对外部基准做优化的前提下，也能在多项外部指标上表现出竞争力。

图 5｜外部基准对比。红色为 AutoResearch-MLIP 最终候选（第 40 代），灰色为外部基线；结果均基于相同短训练协议。

下一步：从分数优化到表征演化

目前的评估器以能量误差和力误差为核心。一个自然的下一步是把评估目标推进到表征层：不只是让模型在某个基准上得分更高，而是演化出更可复用、更具可解释性的内部表示。

近期关于MLIP表征空间的研究发现，不同架构的模型在经过锚点投影后，原子环境在隐空间呈现出相近的几何结构。这提示未来的评估器可以进一步纳入跨模型的表征对齐、结构不变性的诊断信号。

如果这一方向走通，AutoResearch-MLIP的自主演化循环就不再只是搜索高分模型，而是朝着科学上更可复用、更可迁移的设计原则推进。

总结

AutoResearch-MLIP在机器学习力场这一真实科学建模问题上，构建了一套有迹可循的自主演化研究框架：智能体在固定评估规则下，将假设提出、代码实现、结果评估、失败记录和分支决策，连接成一套完整、可回溯的研究过程。

AutoResearch-MLIP由中国科大机器化学家团队与华为 MindSpore Science团队联合开发，已可通过"灵境造物"科研平台使用。

参考资料

Paper: Agentic, autonomous design evolution of machine-learned interatomic potentials

文章预印：https://chemrxiv.org/doi/full/10.26434/chemrxiv.15003852/v1

代码开源

https://github.com/pic-ai-robotic-chemistry/Agentic-auto-designed-MLIPs

内容中包含的图片若涉及版权问题，请及时与我们联系删除

MLIPs迈入自主设计与演化时代

评论列表

评论