MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter

向作者提问

NEW

简介

语言模型（LMs）在各种一维文本相关任务中展示了令人印象深刻的分子理解能力。然而，它们固有地缺乏二维图形感知——这是人类专业人员理解分子拓扑结构的关键能力。为了弥合这一差距，我们提出了MolCA：使用跨模态投影器和单模适配器的分子图-语言建模。MolCA通过跨模态投影器使LM（例如Galactica）能够理解基于文本和图形的分子内容。具体而言，跨模态投影器被实现为Q-Former，以连接图形编码器的表示空间和LM的文本空间。此外，MolCA使用单模适配器（即LoRA）使LM有效地适应下游任务。与先前通过跨模态对比学习将LM与图形编码器耦合的研究不同，MolCA保留了LM生成开放式文本的能力，并增加了二维图形信息。为展示其有效性，我们在分子字幕、IUPAC名称预测和分子-文本检索任务上广泛测试了MolCA，在这些任务上，MolCA显著优于基线。我们的代码和检查点可以在https://github.com/acharkq/MolCA找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
解决问题

本文试图通过MolCA模型解决语言模型在理解分子结构时缺乏二维图形感知的问题。并在分子字幕、IUPAC名称预测和分子-文本检索等任务上进行了广泛的基准测试。
关键思路

MolCA模型通过跨模态投影器和单模适配器实现了语言模型对文本和图形分子内容的理解。跨模态投影器是由Q-Former实现的，连接图形编码器的表示空间和语言模型的文本空间。而单模适配器则用于语言模型对下游任务的高效适应。
其它亮点

本文的亮点在于MolCA模型保留了语言模型生成开放文本的能力，同时增加了二维图形信息。在分子字幕、IUPAC名称预测和分子-文本检索等任务上，MolCA模型显著优于基线模型。此外，作者还公开了代码和检查点。
相关研究

近期的相关研究包括使用跨模态对比学习将语言模型与图形编码器耦合，以及使用图神经网络来处理分子结构。例如，标题为“Graph-Bert: Only Attention is Needed for Learning Graph Representations”的论文使用Bert模型来学习图形表示。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问