OpenChemIE: An Information Extraction Toolkit For Chemistry Literature

2024年04月01日
  • 简介
    从化学文献中提取信息对于构建数据驱动的化学反应数据库至关重要。完整的提取需要将文本、表格和图像中的信息结合起来,而之前的研究主要是从单一形式中提取反应。在本文中,我们介绍了OpenChemIE来解决这个复杂的挑战,实现在文档级别提取反应数据。OpenChemIE分为两个步骤:从单个形式中提取相关信息,然后将结果集成以获得最终的反应列表。对于第一步,我们采用专门的神经模型,每个模型都解决化学信息提取的特定任务,例如从文本或图像中解析分子或反应。然后,我们使用化学相关的算法整合这些模块的信息,允许从反应条件和底物范围调查中提取细粒度的反应数据。我们的机器学习模型在单独评估时达到了最先进的性能,我们精心注释了一个具有R基团的具有挑战性的反应方案数据集,以评估我们的流程作为一个整体,实现了69.5%的F1得分。此外,\ours的反应提取结果与Reaxys化学数据库直接比较,准确度得分为64.3%。我们免费向公众提供OpenChemIE作为开源软件包,以及通过Web界面。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决从化学文献中提取信息以构建最新的反应数据库的问题,该问题需要跨越文本、表格和图像等多个模态进行信息提取。
  • 关键思路
    OpenChemIE提出了一个两步法的解决方案:首先从各个模态中提取相关信息,然后使用化学相关算法将结果集成以获得最终的反应列表。该方法使用了专门针对化学信息提取的神经模型,并取得了最新的性能表现。
  • 其它亮点
    本文提出了一个新的方法来解决从多个模态中提取化学信息的问题,并在数据集上取得了较好的性能表现。此外,作者还提供了一个开源软件包和一个Web界面,以便更广泛地使用该方法。
  • 相关研究
    最近的相关研究包括使用深度学习的化学实体识别和化学反应预测等方面的工作。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问