When SMILES have Language: Drug Classification using Text Classification Methods on Drug SMILES Strings

The Second Tiny Papers Track at {ICLR} 2024, Tiny Papers @ {ICLR} 2024, Vienna Austria, May 11, 2024
2024年03月03日
  • 简介
    这段摘要讲述了复杂的化学结构(如药物)通常被SMILES字符串定义为分子和化学键的序列。这些SMILES字符串被用于不同的基于机器学习的药物相关研究和表示工作中。在这项工作中,我们提出一个问题:如果我们将药物的SMILES字符串视为常规句子,并进行文本分类以进行药物分类,会发生什么?我们的实验证实了这种可能性,并获得了非常有竞争力的分数。该研究探讨了将每个原子和化学键视为句子组件的概念,采用基本的自然语言处理方法来对药物类型进行分类,证明了用简单的视角也可以解决复杂的问题。数据和代码可以在此处获得:https://github.com/azminewasi/Drug-Classification-NLP。
  • 解决问题
    将药物SMILES字符串作为常规句子进行文本分类,探索其可行性和效果。
  • 关键思路
    将SMILES字符串中的每个原子和键视为句子组件,使用基本的自然语言处理方法进行药物分类。
  • 其它亮点
    论文提供了一种简单而有效的方法,将药物分类问题转化为文本分类问题。实验结果表明,这种方法在药物分类任务上具有竞争力的性能。数据和代码已经开源。值得进一步探索的是如何将该方法与其他药物发现技术相结合,以提高药物开发的效率。
  • 相关研究
    近期的研究集中在将药物表示为SMILES字符串,并将其用于药物发现和设计。一些相关的论文包括“Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation”和“Molecular Property Prediction: A Multilevel Quantum Interactions Modeling Perspective”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论