人类正在进入人工智能时代。化学也将被现代的深度学习方法所改变,这需要大量定性数据来进行神经网络训练。
好消息是,化学数据「很好保存」。即使某种化合物最初是在 100 年前合成的,关于其结构、性质和合成方式的信息仍然与今天相关。 
坏消息是,没有公认的标准方法来呈现化学公式。化学家通常使用许多技巧以简写符号的方式来表示熟悉的化学基团。但化学家的个人习惯不同,惯例也会改变。对于计算机算法来说,这项任务似乎是不可逾越的。
来自 Skoltech 的初创公司 Syntelly 和莫斯科罗蒙诺索夫国立大学的研究人员开发了一种基于 Transformer 的人工神经网络,可以将有机结构的图像转换为分子结构。为了训练这个网络,开发了一个综合数据生成器,它可以随机模拟各种绘图样式、官能团、官能团占位符(R 基)和视觉污染。
该研究以「Image2SMILES: Transformer-Based Molecular Optical Recognition Engine」为题,于 2022 年 1 月 11 日发表在《Chemistry–Methods》上。

 

数据生成器 GitHub 地址:https://github.com/syntelly/img2smiles

论文链接:https://chemistry-europe.onlinelibrary.wiley.com/doi/10.1002/cmtd.202100069

内容中包含的图片若涉及版权问题,请及时与我们联系删除