Language models can generate molecules, materials, and protein binding sites directly in three dimensions as XYZ, CIF, and PDB files

D Flam-Shepherd, A Aspuru-Guzik
[University of Toronto]

语言模型可以直接生成3D的XYZ、CIF和PDB文件,用于生成分子、材料和蛋白质结合位点

要点:

  • 动机:传统的分子设计方法只针对可以用图表达的有机分子等简单结构,而材料和生物分子等复杂结构需要更完整的表示方法,本文旨在展示如何用语言模型直接在3D空间生成分子、材料和蛋白质结合位点等结构.
  • 方法:使用基于Transformer的语言模型,直接在3D空间中生成分子、材料和蛋白质结合位点的XYZ、CIF和PDB文件.
  • 优势:使用语言模型直接在3D空间中生成结构,不需要将它们转换为线性串表示,能处理不同分布的化学结构,包括大型生物分子,且表现与目前领先的基于图和基于点云的3D生成模型相当.


使用语言模型直接在3D空间生成分子、材料和蛋白质结合位点的XYZ、CIF和PDB文件,展示了语言模型在处理复杂化学结构上的强大能力,为逆向设计分子和材料提供了巨大潜力。

https://arxiv.org/abs/2305.05708 
图片
图片
图片