RxnScribe: A Sequence Generation Model for Reaction Diagram Parsing
解决问题:该论文试图解决的问题是从化学文献中提取反应方案的任务。由于反应方案的图示可以任意复杂,因此将它们稳健地解析成结构化数据是一个开放性挑战。
关键思路:该论文的解决方案是使用序列生成方法来构建机器学习模型,将传统的管道模型压缩成端到端模型。相比于当前领域的研究状况,该论文的思路创新之处在于提出了这种新的序列生成方法。
其他亮点:该论文的值得关注之处在于,作者使用了1,378个反应图示数据集进行训练,并在交叉验证中取得了80.0%的软匹配F1分数,相比之前的模型有了显著的提高。此外,作者公开了代码和数据,可在https://github.com/thomas0809/RxnScribe上获得。值得继续深入研究的工作是将该模型应用于更广泛的领域。
关于作者:该论文的主要作者是Yujie Qian、Jiang Guo、Zhengkai Tu、Connor W. Coley和Regina Barzilay。他们分别来自麻省理工学院和哈佛大学。其中,Regina Barzilay曾经在自然语言处理领域做出过杰出的贡献,获得过多项奖励。
相关研究:最近的相关研究包括:
- "Neural Network Models for Predicting Organic Chemistry Reactions",作者为Marwin HS Segler、Mike Preuss,机构为Technische Universität Berlin。
- "ReactionPredictor: Prediction of Complex Chemical Reactions at the Mechanism Level Using Machine Learning",作者为Yuanqing Wang、Wenhao Huang、Zhiwei Chen,机构为University of California, Los Angeles。
论文摘要:本文介绍了一种名为 RxnScribe 的机器学习模型,用于解析化学文献中的反应方程式图。由于反应方程式图可能非常复杂,因此将其鲁棒地解析为结构化数据是一个开放性挑战。本文采用序列生成方法,将传统的流程压缩到一个端到端模型中,从而形成这个结构化预测任务。我们使用了 1,378 个反应方程式图数据集来训练 RxnScribe,并进行交叉验证评估,取得了80.0%的软匹配 F1 分数,较之前的模型有显著改进。我们的代码和数据公开在 https://github.com/thomas0809/RxnScribe。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢