- 简介由于化学空间极为庞大且具有性质标注的数据稀少,设计具备目标性能的材料仍然充满挑战。尽管近年来生成模型的发展为逆向材料设计提供了颇具前景的途径,但大多数方法需要大量数据,并且每当目标性质发生变化时都必须重新训练模型。本文提出了EGMOF(高效金属有机框架生成模型),这是一种混合扩散-Transformer框架,通过模块化、基于描述符中介的工作流程克服了上述局限。EGMOF将逆向设计分解为两个步骤:(1)一维扩散模型(Prop2Desc),将期望的性质映射到具有化学意义的描述符;随后(2)利用Transformer模型(Desc2MOF)根据这些描述符生成相应的结构。这种模块化的混合设计使得模型只需极少的再训练,即便在数据量较小的情况下仍能保持高准确性。在氢气吸附数据集上的实验表明,EGMOF实现了超过95%的有效性和84%的命中率,相较于现有方法,有效性提升了最高达57%,命中率提升了14%,并且仅使用1,000个训练样本时依然表现优异。此外,我们的模型成功实现了在29个不同性质数据集上的条件生成,包括CoREMOF、QMOF以及通过文本挖掘获得的实验数据集,而此前的模型均未能实现这一点。本研究提出了一种数据效率高、通用性强的多类MOF逆向设计方法,并凸显了模块化逆向设计工作流程在更广泛材料发现中的巨大潜力。
- 图表
- 解决问题论文试图解决材料逆向设计中的两个关键挑战:化学空间巨大导致搜索困难,以及属性标注数据稀缺导致模型难以训练。特别是针对金属有机框架(MOFs)的设计,传统生成模型需要大量标注数据且每次目标属性改变时都需重新训练,限制了其在实际中的应用。这个问题在材料发现领域长期存在,但如何在小样本条件下实现高效、通用的逆向设计仍是一个具有挑战性的新问题。
- 关键思路提出EGMOF,一种模块化的混合扩散-Transformer框架,将逆向设计解耦为两个阶段:首先用一维扩散模型(Prop2Desc)将目标属性映射到化学上有意义的描述符,再用Transformer模型(Desc2MOF)从描述符生成MOF结构。这种解耦设计使得模型大部分组件无需随新属性重新训练,显著提升了数据效率和泛化能力,是首次将扩散模型与Transformer结合用于MOF逆向设计的尝试。
- 其它亮点在氢气吸附数据集上,EGMOF实现了超过95%的有效性和84%的命中率,相比现有方法分别提升最多57%和14%,且仅使用1000个训练样本即表现优异。模型成功在29个不同性质数据集(包括CoREMOF、QMOF和文本挖掘的实验数据)上实现了条件生成,展现了强大的跨数据集泛化能力。实验设计严谨,涵盖了多种真实世界场景。目前尚未提及代码是否开源,值得后续关注。未来可深入研究描述符的可解释性、扩展至其他材料体系以及实现端到端的轻量化部署。
- 1. Inverse Design of Porous Materials via Deep Conditional Generative Models 2. Generative Models for Material Discovery: A Review 3. MOF-GAN: Chemical Generative Adversarial Networks for the Inverse Design of Porous Materials 4. Deep Learning Approaches for Inverse Design of Crystalline Materials 5. Text-mined Data-driven Property Prediction in Metal–organic Frameworks


提问交流