化学文献中蕴含着丰富信息,通过化学文本挖掘技术提取关键数据,从而构建庞大的数据库,不仅能够为实验化学家提供详尽的物理化学性质和合成路线指引,还能够为计算化学家提供丰富的数据和洞见用于模型构建和预测。然而,由于化学语言的复杂性和论文风格的多样性,从化学文献中提取结构化数据是一项极具挑战性的任务。因此,许多文本挖掘工具应运而生,旨在解决这一棘手难题,助力科学研究迈向新的高峰。然而,这些针对特定数据集和语法规则构建的文本提取模型往往缺乏灵活的迁移能力。近两年,以ChatGPT为代表的大语言模型(LLMs)风靡全球,引领了人工智能和自然语言处理领域的快速发展。能否利用通用大语言模型强大的文本理解和文字处理能力,从复杂化学文本中灵活准确地提取信息,解放数据标注工人的劳动力,加速领域数据的收集呢?

中国科学院上海药物研究所郑明月团队在五项化学文本挖掘任务上对多个大语言模型的能力进行了全面综合的探究,包括化合物实体识别、反应角色标注、金属有机框架(MOF)合成信息提取、核磁共振波谱(NMR)数据提取和反应合成段落转换动作序列。团队成员基于多种大语言模型探索了多种策略,证实了微调大模型在化学知识信息提取任务上的通用性和准确性,有望加速各领域的数据收集和科学发现。相关研究论文以“Fine-tuning large language models for chemical text mining”为题202467发表在Chemical Science上。

1 背景

由于化学语言的复杂性和异质性,从复杂的化学文献中提取结构化数据是一项具有挑战性的任务。设计针对特定任务的模型和算法,需要广泛的领域知识和复杂的数据处理,难以适应不同的提取任务,通常需要互补协作来完成复杂的信息提取任务,从而限制了它们的通用性和实用性。

202211月发布的 ChatGPT 为代表的大型语言模型(LLMs)展示了通用人工智能(AGI)的潜力。但是当前,LLMs仍然很难准确回答基于事实和知识的问题,如果LLMs用于知识提取任务应该可以减轻幻觉,并充分利用其强大的文本理解和处理能力。但是Chen等人的基准研究发现仅基于提示工程的ChatGPT 在生物医学文本挖掘方面的表现显著差于已有模型[1]。这可能是因为人类的表达是不清晰、不完整、模糊、难以提炼的,而且模型的输出可能缺乏标准化,导致在从复杂文本(如专利或科学文献)挖掘数据时性能不佳,这种零样本或少样本提示往往不足以解决复杂场景的多样性问题,难以保证提取数据的质量。本研究主要从五个化学文本挖掘任务来探索微调大模型在复杂信息提取上潜力1

 
化学文本段落中蕴含丰富化学信息,展示五项结构化任务的数据形式。

2 结果与讨论

2.1 Paragraph2Compound化合物实体识别

研究人员基于USPTO数据集,从数百万个自动标注的段落-实体对中随机抽样用于训练模型(2a),并确保每个较小子集包含在较大子集中。微调模型和依赖于提示工程的结果均来自于三次独立实验(2b)。图2c展示了在这个化合物实体识别任务中如何使用零样本和少样本提示,来指导大语言模型在不改变模型权重的情况下得到更好输出。由于任务简单且指令清晰,仅依赖于提示工程的GPT-3.5-turboGPT-4获得超过0.60F1分数,各微调模型的性能均随着训练集大小的增加而稳定上升,达到超过0.85F1分数。

a
)基于
UPSTO
数据集的
Paragraph2Compound
抽样和训练流程。(
b
)不同模型在不同规模的
Paragraph2Compound
训练集上的性能。数据点和阴影区域分别表示三次独立试验的平均值和标准差。(
c
)使用零样本和少样本提示的
Paragraph2Compound
示例。

2.2 Paragraph2RXNRole:反应角色识别

根据Guo等人的工作[2]
,反应角色识别包含两个子任务,一为从段落中识别反应产物,二为给定反应产物下识别其它反应角色(反应物、催化剂、溶剂、温度、时间、产率等)。等人开发的类BERTToken-级别多分类模型的原始标签是B-RoleI-RoleO列表,为了能够使用语言模型进行序列到序列的生成式训练,研究人员在输入段落中添加的标记作为模型的输出
3a
,并将模型输出转换回BIO列表与之前方法进行公平对比。在产物提取任务上,微调后的GPT-3.5-turboF1分数为77.1%,超越了之前最佳方法ChemBERT76.2%
3b
。在反应角色标记任务上,微调后的GPT-3.5-turboF1分数为83.0%,显著超越了之前最佳方法ChemRxnBERT76.2%
3c
。值得注意的是,ChemBERT在来自200 000篇期刊文章的9 478 043个句子上进行了领域-自适应预训练,ChemRxnBERT944 733个包含反应的句子进行了进一步的任务-自适应训练。这里微调的两个GPT-3.5-turbo模型分别仅花费了1美元和5美元,在小型训练数据集上表现出了极高的性价比。
aParagraph2RXNRole任务中两个子任务的数据形式。(b)产物提取任务的性能。(c)反应角色标记任务的性能。

2.3 Paragraph2MOFInfoMOF合成信息提取

研究人员重新手工标注Zheng等人的数据集[3],包含329条训练集和329条测试集,并使用 Levenshtein 相似性和完全匹配准确率作为指标来客观评估模型定制化提取结构化数据的能力。虽然大多数模型在11个参数中实现了较高的Levenshtein相似性(4d),但只有少数模型保持了较高的完全匹配准确率(4e),而这是格式化数据提取关注的黄金指标。图4f中展示了不同模型从文本段落提取多条反应信息的结果,该段落中包含两个反应,第一个反应以(R)-H3PIA bipy为连接子,并明确提供所有反应条件,第二个反应用(S)-H3PIA替换(R)-H3PIA,并保持所有其他条件不变。大多数模型能够成功理解语义,并从段落中提取出两个反应。然而,只有经过微调的GPT-3.5-turbo完美地提取出与标注答案完全一致的信息,其它模型均有不同程度的错误,特别涉及物质和多数量的信息提取

a
Paragraph2MOFInfo
数据集的统计数据。(
b
)在不同规模的训练集上微调
GPT-3.5-turbo
的性能。(
c
)不同模型分别提取包含单个反应和多个反应的段落的
Levenshtein
相似性和精确匹配精度的平均性能。(
d
Paragraph2MOFInfo
任务中
11
个参数的
Levenshtein
相似性。(
e
Paragraph2MOFInfo
任务中
11
个参数的完全匹配准确率。(
f
)不同模型从包含多反应
MOF
合成段落中提取的示例。黄色单元格代表标签。绿色单元格代表预测完全匹配。蓝色单元格表示预测错误。
2.4 Paragraph2NMR:NMR数据提取
研究人员手工标注了各300条数据用于训练和测试,使用 Levenshtein 相似性和完全匹配准确率作为指标来客观评估模型定制化提取结构化数据的能力。在Levenshtein相似性指标上,几乎所有微调后的语言模型都表现了出色的性能(5b),均优于仅依赖提示工程的GPT模型。但是,在完全匹配准确度指标上,需要每个字符与标签完全一致时,微调GPTMistralLlama3LLMs处于领先地位。尽管微调后的T5BART也能提取大部分文本,但它们经常遗漏或错提了几个字符,导致它们的精确匹配精度指标显著降低(5c)。值得注意的是,使用精心设计的指令提示对微调LLMs的性能几乎没有影响(5a, b),这证明了微调 LLM极大地减缓了对提示的依赖性。此外,微调开源LLMs在该任务上展现了极高的完全匹配准确率,使得本地部署大模型高效自动挖掘私有数据成为可能。
a)在有无提示工程的情况下,微调GPT-3.5-turbo的性能随训练数据规模变化折线图(b)各模型在Paragraph2NMR任务上的Levenshtein相似性和完全匹配准确率热图。(cT5BARTParagraph2NMR任务上提取错误的示例。

2.5 Paragraph2Action:合成段落转换为动作序列

上述任务只需要模型提取出存在于段落中的特定信息。但是,Paragraph2Action任务要求模型理解段落,并将实验过程转换为结构化的合成步骤(动作序列)。显然,仅使用提示工程的GPT模型难以完成这项任务,尤其是涉及多个复杂转换和提示描述不足时。为了探索仅使用提示工程GPT模型的最大潜力,研究人员将转换示例的数量从6个逐渐增加到3060个。尽管示例中至少包含一次所有类型的操作并且接近GPT-3.5-turbo-06134096GPT-4-06138192个词元个数限制,但它们在少样本场景下的表现仍然令人失望。即使是最先进的GPT-460个样本的上下文学习中,也仅达到32.7%的完全匹配准确率。此外,由于上下文较长,推理时会耗费大量的词元数,带来巨大的推理花销。

然而,微调预训练的语言模型展现了不错的性能。在1060条手动标注训练数据上微调 Mistral-7b-instruct-v0.2GPT-3.5-turboLLM,能够达到64.8%63.6%的完全匹配准确率1,轻松超过了Vaucher等人之前报道的SOTA结果[4]该方法集成三个Transformer模型,每个模型都对200万条基于规则的数据进行了任务自适应预训练,并在14 168条增强数据上进行了微调。当GPT-3.5-turbo14 168条增强数据上进行微调,完全匹配准确率能够进一步提升至69.0%对于实现自动化合成来说,生成严格遵循语法规则的可执行指令是具有挑战性的。微调LLMs有望弥补模糊自然语言和结构化机器可执行编程语言之间的鸿沟方面起到至关重要的作用,显著提高定制化转换的准确性。在这类涉及模糊规则或难以定义的转换任务中,使用高质量标注数据微调 LLMs或许具有较大优势。

1. Paragraph2Action任务性能

由于内存限制,上下文学习的上限往往受到最大输入长度的限制,将基于零样本或少样本提示的模型与使用完整数据集训练的微调模型比较并不公平。为了客观地比较上下文学习和微调方法的性能,应为同一个大模型提供相同数量的相同示例。在这里,研究人员测试了最新的GPT-3.5-turbo-0125,上下文长度扩展到16 K并同时支持微调。研究人员在采样过程中尽可能涵盖所有类型的动作,随着示例数量从30个增加到60个、90个和120个,上下文学习和微调的性能都在提高(2,但微调模型在完全匹配准确率等指标上的通常更优10-20%。这可能归因于上下文学习中的信息丢失,而微调以调整参数的形式学习提取模式从而达到更高的准确性。

2. Paragraph2Action上下文学习和微调策略的性能对比

3 结论

本研究探索了微调大语言模型在化学文本挖掘上的潜力,从五个任务上全面综合地展示了微调LLMs的通用性、稳健性和有效性,为其他领域数据的标准化、格式化提取提供参考,有望加速科学发现的积累与进步。

中国科学院上海药物研究所博士研究生张玮、南京中医药大学与上海药物所联合培养硕士研究生王庆功为本文的共同第一作者。中国科学院上海药物研究所郑明月研究员、付尊蕴博士后为本文通讯作者。本研究得到了国家自然科学基金、国家重点研发专项、上海药物研究所与上海中医药大学中医药创新团队联合研究项目、上海市超级博士后计划、上海市科技重大专项等项目的资助。

参考文献

[1]Q. Chen, H. Sun, H. Liu, Y. Jiang, T. Ran, X. Jin, X. Xiao, Z. Lin, H. Chen and Z. Niu, An Extensive Benchmark Study on Biomedical Text Generation and Mining with ChatGPT, Bioinformatics, 2023, btad557.

[2]J. Guo, A. S. Ibanez-Lopez, H. Gao, V. Quach, C. W. Coley, K. F. Jensen and R. Barzilay, Automated chemical reaction extraction from scientific literature, J. Chem. Inf. Model., 2021, 62, 2035-2045.

[3]Z. Zheng, O. Zhang, C. Borgs, J. T. Chayes and O. M. Yaghi, ChatGPT Chemistry Assistant for Text Mining and the Prediction of MOF Synthesis, J. Am. Chem. Soc., 2023, 145, 18048-18062.

[4]A. C. Vaucher, F. Zipoli, J. Geluykens, V. H. Nair, P. Schwaller and T. Laino, Automated extraction of chemical synthesis actions from experimental procedures, Nat. Commun., 2020, 11, 3601.
原文链接
Wei Zhang, Qinggong Wang, et.al., Fine-tuning large language models for chemical text mining, Chemical Science (2024)
https://pubs.rsc.org/en/Content/ArticleLanding/2024/SC/D4SC00924J

(点击下方“阅读原文”跳转)

内容中包含的图片若涉及版权问题,请及时与我们联系删除