DRUGONE

人工智能的最新进展激发了人们对科学助手的兴趣,这类助手可支持研究人员完成从文献调研到实验设计和数据分析的全流程科学工作。此类系统的关键能力在于处理并推理科学信息的多种表现形式——从光谱数据的解读到实验室装置的理解。研究人员在此引入了 MaCBench,这是一个全面的基准,用于评估视觉语言模型在化学与材料科学任务中的实际表现,涵盖三个核心方面:数据提取、实验执行与结果解释。系统性评估发现,尽管这些模型在基础感知任务中表现可观(如设备识别与标准化数据提取接近完美),但在空间推理、跨模态信息整合以及多步逻辑推理方面仍存在根本性局限。这些洞察不仅适用于化学与材料领域,也表明要构建可靠的多模态科学助手,需要在训练数据的策划及模型训练方法上取得进展。

科学研究一直需要整合多样的信息形式,从实验室中的视觉观察、测量数据到理论框架与文献资料。虽然自动化技术在高通量实验等重复性任务中表现出色,但科学发现的核心——灵活整合多模态信息的能力——仍是重大挑战。

大型语言模型(LLMs)的兴起推动了更灵活科研计算系统的发展。这些模型能够整合通用推理能力与领域专用功能,有望实现更适应性强的科学自动化。然而,人与计算系统在无缝整合视觉、数值与文本信息上的差距依然存在,这在需要结合视觉解读与科学推理的任务中尤为明显,例如光谱数据分析、实验装置评估或实验室安全条件判断。

尽管已有针对单模态或通用多模态任务的基准,但尚缺乏系统性评估,去探究模型如何处理贯穿完整科研流程的多模态信息交互。研究人员据此提出 MaCBench,以信息提取、实验执行与数据解释三大支柱来评估模型在全流程科研任务中的能力,并通过消融实验揭示模型在不同模态、领域知识需求、推理复杂度以及与训练数据差异性方面的表现与失败模式。


结果


MaCBench 框架

MaCBench 围绕科研中常见的三大环节设计任务:从文献提取信息、执行实验(包括虚拟与实际实验)以及解释实验数据。任务类型涵盖表格、图谱、有机化学反应图、晶体结构、原子力显微镜(AFM)成像、光谱学及材料表征等,要求模型具备领域特定的视觉理解与科学推理能力。数据来源包括专利挖掘与人工生成的实验数据。


性能概览

不同任务和模态下的模型表现差异显著。整体上,Claude 3.5 Sonnet 在三类任务中平均表现最好。但各模型在科研流程的多个环节均存在不足,且并非由单一瓶颈导致。例如,在数据提取任务中,有的模型在有机分子异构体关系判断上表现接近随机水平;在实验执行中,尽管设备识别准确率较高,但在比较不同实验装置的安全风险时准确率显著下降;在数据解释中,模型对 AFM 图像、质谱和核磁谱的理解尤为薄弱。


模型局限性分析

通过消融实验,研究人员识别了三类核心推理局限:

  • 空间推理不足:虽然模型在简单的结构计数任务上表现良好,但在晶系判断、空间群识别或异构关系命名时准确率明显下降。

  • 跨模态信息整合能力弱:当同一信息以文本或图像形式呈现时,文本条件下表现显著优于图像条件,表明当前模型在模态融合上策略不够稳健。

  • 多步推理能力有限:任务所需推理步骤越多,性能越显著下降,例如在 XRD 分析中,峰位识别准确率远高于峰强排序。

此外,推理表现还受到科学术语敏感性与指导提示的影响。使用更通俗或标准化的术语,以及提供逐步指导,有助于部分模型提升表现,但效果因模型而异。


网络信息频率的影响

研究人员发现,模型在某些任务上的表现与相关信息在互联网上的出现频率正相关。这表明部分任务的高准确率可能源于模式匹配而非真正的科学推理。

讨论

科学推理本质上是多模态的。现有视觉语言模型在设备识别、数值提取等标准化任务中表现突出,但在需要视觉与概念深度融合的任务中仍不可靠。其在相同信息的不同模态呈现下表现差异明显,并且可能依赖于训练数据中的模式匹配,而非构建稳健的科学理解。


尽管如此,MaCBench 的结果显示,这些系统在多个任务上已接近完美表现,并且通过优化术语、调整提示可进一步提升性能。未来的改进方向包括合成训练数据生成、模态转换任务训练,以及在更大规模和多样性的任务集上开展泛化测试。研究人员认为,实现从模式匹配向真正科学推理的跨越,需要在训练数据策划与模型架构设计上同时取得突破,尤其是在空间关系处理与跨模态信息融合方面。

整理 | DrugOne团队


参考资料


Alampara, N., Schilling-Wilhelmi, M., Ríos-García, M. et al. Probing the limitations of multimodal language models for chemistry and materials research. Nat Comput Sci (2025). 

https://doi.org/10.1038/s43588-025-00836-

内容中包含的图片若涉及版权问题,请及时与我们联系删除