DRUGAI

生成式人工智能(AI)近年来取得了显著进展,尤其是在语言领域。然而,尽管它已迅速商业化,其在生物医学研究中的应用仍然处于起步阶段。当前,使用大型语言模型(LLM)的主要途径包括面向终端用户的平台(通常由大型企业提供)和具备编程知识的研究者自行开发的定制解决方案。但这两种方式都存在明显的局限性。商业平台无法满足可重复性研究所需的透明度要求;它们并非开源,仅有少数会对其算法提供(且多为表层的)科学描述。同时,这些平台还面临隐私问题(用户数据的再利用)和较大的商业压力。此外,商业平台也无法灵活定制,以适应特定研究领域或工作流程。

另一方面,大多数生物医学研究者难以直接掌握个性化的定制化解决方案。这些方案除了需要研究者具备本领域专业知识外,还需要在编程、数据管理、机器学习、部署与框架搭建、以及在快速变动的环境中进行软件版本管理等方面具备丰富的专业技能。诸多技术难题使得研究过程缺乏稳健性和可重复性。因此,大型语言模型在生物医学研究中的应用仍停留在零散的个案研究阶段,与已有多个开源AI框架和获得认证的医疗设备的影像学领域形成鲜明对比。


为填补复杂定制解决方案与闭源商业平台之间的空白,研究人员推出了 BioChatter(https://biochatter.org)。这是一个遵循开放科学理念的开源 Python 框架,旨在帮助研究者构建定制的生物医学研究软件。BioChatter 采用模块化架构,能广泛适用于各类生物医学研究场景(图1a),并以灵活的组合方式支持从快速原型开发到完全封装部署的广泛应用(图1b)。

为消除对基础工作流程的频繁重复实现带来的冗余,研究人员提供了一个采用宽松许可的软件包,整合并维护了核心的开源组件。这样不仅能显著降低软件开发的负担,还能将生物医学中常见的基于大型语言模型的工作流程统一到一个一致的应用编程接口(API)中。研究人员对各种 LLM 部署工具和专有 LLM 提供商不同的 API 进行了整合,使用户无需修改代码即可在不同模型和提供商之间自由切换。


研究人员还与现有的开源基础设施(例如 BioCypher)及其他数据库进行对接,让研究者能够注入领域知识并使用检索增强式生成。此外,借助 LLM 对 API 查询进行参数化的能力,以及在 BioChatter 中对各个 API 服务的定制实现,研究人员可以轻松集成实时服务(包括基于网络的 API)。最后,研究人员的可定制平台允许用户通过系统提示来调整 LLM 的使用环境,并支持基于智能体(agent)的高级工作流程。简化这些定制设置是 BioChatter 的一大优势,通常只需修改一个简单的配置文件即可实现。


研究人员提供了基于反思(reflection)机制实现多智能体系统的抽象类,这些系统既可执行简单的反思性任务(如事实核查),也可进行更复杂的操作(如依据查询结果迭代改进知识图谱查询)。从长远来看,这些智能体系统有望扩展到相当高的复杂度,但在此过程中,需要在性能和计算成本之间进行充分的评估与权衡。


为应对 LLM 工作流程中的可重复性挑战,研究人员开发了一个持续的基准测试系统,方便社区实时监测各模型在特定任务上的表现。每当我们添加新功能(如知识图谱查询生成)时,都会设计相应的测试集来验证其功能。该基准测试框架在所有模型和相关参数下运行测试,并通过网站向社区公布结果。研究人员依托开源软件快速整合新发布的模型,通过在社区中分担技术工作,及时跟进行业动态的发展步伐。

知识图谱连接性方面,由于 BioChatter 能与 BioCypher 知识图谱进行原生交互(图 2b),研究人员观察到所有大型语言模型的性能都有显著提升。借助对 BioCypher 模式配置中知识图谱组件的详尽描述,研究人员可以有效引导 LLM 使用该知识图谱。未来,计划将这一方法扩展至从文本和图像中提取信息,并已开始开发新的框架 BioGather 来实现这一目标(图 2c)。这种集成方法的一大优势在于能够引导模型从非结构化来源中提取信息,并与知识图谱在各个用例中的模式保持一致,从而促进数据的统一化,并产生多重协同效应:LLM 提高了知识的可获取性,并凭借其对上下文的感知能力展现了更出色的信息提取性能;而知识图谱则使 LLM 更加可靠,并有助于对提取出的信息进行统一管理。


目前,业界对大型语言模型在生物医学领域的监管、国际论坛以及基准测试提出了需求,但仍缺乏基于科学界实践的可行解决方案。与生物医学图像分析领域已有众多开放框架、易于访问 AI 方法的情况相比,基于语言的研究任务仍停留在探索、案例研究、观点以及对于手动应用的建议阶段。一种普遍观点认为,大型语言模型在医学领域的发展和评估将主要由监管机构和闭源公司主导,这可能会将全球南方以外的从业者排除在外。研究人员主张应由开放科学社区以完全透明、开源的方式引领这些新兴且迅速发展的技术的开发与评估,使来自全球和各类利益相关群体的多方力量都能平等参与。我们相信这对于应对该领域出现的新挑战至关重要,例如如何在敏感应用场景中确保安全。与仅关注模型能力的基准测试套件不同,基于波普式证伪(Popperian falsification)的框架——旨在充分挑战模型极限——将成为关键。


研究人员更注重务实的执行,而非“一刀切”的方案。通过提供一个灵活且模块化的平台,专门面向生物医学领域定制化需求的开发者,希望减轻开发和维护负担,同时提高最终应用的稳健性。BioChatter 的设计目标并非与现有基础设施或面向消费者的产品竞争,而是利用开源基础设施高效满足生物医学研究的特定需求,并通过对开放性和透明度的坚持,与闭源、面向消费者的产品形成差异化。


研究人员的终极目标不仅是统一对大型语言模型的 API 接口,还要将这种统一扩展到整个科学知识管理生态系统。从文本和图像中提取信息到知识的表示,再到在决策、数据分析、假设生成和科学交流中的应用,都是我们希望覆盖的范围。研究人员致力于简化那些繁琐、重复的研究任务,让研究者有更多时间投入创造性思考和复杂推理。为了促进早期合作,研究人员采取了完全开源的开发模式,并已通过 BioChatter 联盟开启若干项目,来应对研究软件支持、知识管理、出版和大规模药物研发等挑战。


在未来,生成式 AI 模型将通过对文本、图像以及基因组学、转录组学等分子测量结果等多种相关模态进行对比式训练,以整合多维信息并增强其推理能力。虽然研究人员的一些基准测试已展示了当代大型语言模型在从文本和图像中提取多模态信息方面的良好性能,但目前该领域的研究和应用仍处于早期阶段。研究人员将持续更新 BioChatter 及其生态系统,以支持该领域的新进展,并鼓励社区通过提出功能需求、贡献代码和分享研究与应用的方式共同参与这些进步。

整理 | WJM

参考资料

Lobentanzer, S., Feng, S., Bruderer, N. et al. A platform for the biomedical application of large language models. Nat Biotechnol (2025). 

https://doi.org/10.1038/s41587-024-02534-3

内容中包含的图片若涉及版权问题,请及时与我们联系删除