编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Christoph Steinbeck团队的一篇论文。近几十年来,描述化学结构的出版物数量稳步增加。然而,目前大多数已发布的化学信息并未以机器可读的形式出现在公共数据库中。自动化信息提取的过程仍然是一个挑战,需要减少手动干预,特别是在挖掘化学结构图时。作为一个开源平台,DECIMER.ai(Deep lEarning for Chemical IMagE Recognition)充分利用了深度学习、计算机视觉和自然语言处理的最新进展,旨在自动分割、分类和翻译印刷文献中的化学结构图。

化学信息以结构化数据格式和开放数据库的形式可用,不仅使化学领域的研究人员受益,还使使用化学信息的科学领域,如医学、药学、材料科学、分子生物学等等受益。尽管存在大量努力来建立研究数据管理基础设施以及开放数据库和存储库,但大多数化学信息仍然以人类可阅读的文本和图像格式独家发布在文献中。从化学文献中手动提取信息是一项耗时且容易出错的过程,只有在投入大量人力资源的情况下,才能获得深度学习应用所需的大量数据。我们将包含化学结构图的图像翻译成机器可读的表示称为光学化学结构识别(OCSR)。近年来,随着计算机视觉和自然语言处理的显着进展,基于深度学习的OCSR工具已经得到了发展。在为数不多的开源OCSR软件解决方案中,没有系统将化学结构图像分割、分类和翻译结合在一个综合性工作流程中。作者介绍DECIMER.ai,这是一个开源平台,用于在科学文献中识别、分割和识别化学结构图示,旨在解决这一不足。

模型概要

图 1


DECIMER图像分类器和DECIMER图像转换器,与DECIMER分割组合在一起,实现了对科学文献中化学结构的自动提取和解释的综合工作流程(见图1)。结合了所有这些组件的完整工作流程可作为一个带有用户界面的Web应用程序提供。DECIMER图像转换器在基准测试中,正确预测的百分比最高,平均分子(Tanimoto)相似性也最高,超过了所有测试工具。对于化学结构图示,DECIMER图像分类器是第一个公开可用的分类系统,而DECIMER分割是唯一公开可用的分割应用程序。DECIMER Web应用程序是唯一将这些功能组合在一起的开源系统,形成了一个全面的化学数据提取系统。


实验效果

DECIMER.ai的关键组成部分是DECIMER Image Transformer OCSR工具。由于在训练数据中使用了具有不同描述特征的多种化学结构,并采用了详尽的图像增强策略,该应用程序产生了稳健的结果,并能够解释马卡什结构以及常见的功能基团和超原子缩写。

图 2


训练模型在包含每个250,000张图像的四个不同领域内测试数据集上进行了测试。这些测试数据集与训练数据集类似生成,但不包含来自训练数据的任何分子。为了性能评估,使用了两种不同的指标:与正确分子完全相同的预测被认为是最佳评价结果,当然了。但与正确分子非常相似的预测也对化学数据非常有用。为了评估分子结构的相似性,作者使用了Tanimoto相似性,并将相似性表示为0.0到1.0之间的数字。


在所有的测试结果中,DECIMER Image Transformer始终产生平均Tanimoto相似性大于0.95的结果(图2)。与持续高Tanimoto相似性相对立的是,完美预测的数量方面存在明显差异。随着结构描述的复杂性和噪音水平的增加以及图像分辨率的降低,完美预测的分子比例减少。这里有两个明显的趋势:(1)增加图像增强会导致完美识别结构的比例降低。(2)在处理仅包含马卡什结构的测试数据集时,完美识别分子的比例较低。这些结果并不令人意外,因为R基和其他标签在图像分辨率较低或引入额外噪音时可能难以识别。尽管如此,持续高的Tanimoto相似性表明,预测的分子与描绘的分子非常相似,即使预测不是完美的。

图 3


图 4


表 1


表 2


为了评估DECIMER图像转换器模型与其他公开可用的工具(请参见表1和表2)的性能比较,使用了来自各种来源的一系列基准数据集。与其他开放的OCSR工具相比,DECIMER图像转换器在大多数基准数据集上取得了竞争性的结果(图3)。此外,基于规则的系统无法正确识别低分辨率图像中的结构描述(请参见表2中的USPTO_big和Indigo)。对于机器学习应用程序,适当评估失败率非常重要(图3C/3D):与Img2Mol和MolScribe一致,DECIMER图像转换器表现出极低的失败率。DECIMER图像转换器模型从未在手写化学结构描述上进行过训练。然而,对于仅包含手绘化学结构的基准数据集,它可以完美识别27%的结构,并实现了0.69的平均Tanimoto相似性,而所有其他开放工具的表现都更差。此外,当模型与包含增强的图像的训练数据集进行微调,使它们看起来像手绘图像时(请参见图4),完美预测的比例显著增长到60%(增加了33%),对应着平均Tanimoto相似性显著增加了0.2,达到0.89。

结论

DECIMER.ai网络应用是第一个综合性的开源用户界面应用程序,用于从科学文献中提取化学信息。DECIMER图像转换器可以将化学结构描述翻译成高度相似的形式。通过将其嵌入DECIMER.ai应用程序中,人类可以立即评估预测结果,如有必要,可以在分子编辑器窗口中进行修正。

参考资料

Rajan, K., Brinkhaus, H.O., Agea, M.I. et al. DECIMER.ai: an open platform for automated optical chemical structure identification, segmentation and recognition in scientific publications. Nat Commun 14, 5045 (2023). 

https://doi.org/10.1038/s41467-023-40782-0