人工智能(AI)在生命科学领域取得了革命性突破,使得生物信息的解析能力达到了前所未有的水平。为了最大化不断增长的投资回报并加速科研进展,亟需解决伴随AI快速应用而产生的一系列长期问题。

针对这一问题,希腊研究与技术中心及帕多瓦大学等多个研究机构的研究人员于2026年3月20日在《Nature Methods》发表文章,题为“Open and sustainable AI: challenges, opportunities and the road ahead in the life sciences”。

文章回顾了由于模型复用性和可重复性差而导致的AI信任危机,并指出其对环境可持续性的影响。同时分析了当前AI生态系统的碎片化现状以及缺乏指导性路径的问题。提出了一套开放与可持续AI(OSAI)的实践建议,这些建议映射到300多个生态组件,并提供实施路径,旨在帮助研究人员实现可复用、可重复且可持续的AI研究。该框架基于社区共识,并可为未来政策制定提供支持。

背景

人工智能在生命科学领域的迅猛发展,显著提升了人类解析复杂生物系统的能力。从蛋白质结构预测到多组学数据分析,AI正在不断拓展科学研究的边界。然而,在这一进程中,研究模式本身也暴露出一系列深层问题。大量AI模型虽然在论文中取得优异表现,却缺乏足够的透明性与可复用性,使其难以在后续研究中被有效利用。这种现象逐渐演变为一种结构性困境,即研究成果可以被发表,却难以被验证、复现和扩展,进而削弱科学积累的连续性与可靠性 。

随着数据规模的扩大与计算能力的提升,AI模型开发进入高速增长阶段,但相关研究实践并未同步成熟。模型描述往往停留在文本层面,缺乏对数据来源、训练流程和参数设置的完整披露,导致他人难以理解模型的真实行为。与此同时,数据与代码的共享形式也存在不规范现象,例如缺乏明确许可、元数据不完整或存储位置分散,使得研究资源难以被检索和再利用。当研究成果难以复用时,重复训练与重新开发成为常态,进一步放大了资源消耗与时间成本。在这种背景下,如何在推动技术创新的同时建立更加规范、可持续的研究体系,成为亟需解决的问题。

当前挑战

在可复用性方面,AI模型的共享与利用面临多重障碍。研究成果通常缺乏标准化描述,数据来源与处理流程不透明,使得潜在用户难以评估模型的适用性。数据、代码与模型往往分散在不同平台,缺乏统一规范,导致资源难以被检索与整合。许可问题、元数据缺失以及平台选择的不一致性,也进一步降低了模型的可获取性与可利用性。这种碎片化生态使研究者在面对已有成果时往往选择重新开发,从而削弱知识积累的连续性。

可重复性问题同样贯穿AI研究全过程。模型复现不仅依赖代码,还涉及运行环境、依赖库以及硬件配置等复杂因素。当这些信息未被完整披露时,即使相关资源公开,也难以实现有效复现。不同计算平台之间的差异使问题更加复杂,从个人设备到高性能计算集群,资源条件差异显著,复现成本随之增加。缺乏容器化技术与标准化工作流的广泛应用,使得复杂模型的再现过程往往耗时且不稳定,从而影响科研结果的验证与信任基础。

环境可持续性问题则是上述挑战的延伸结果。深度学习模型尤其是大规模模型的训练需要消耗大量能源,当已有模型无法复用时,重复训练带来的能耗不断累积,形成显著的碳排放压力。这种以计算资源为代价的研究模式在生命科学领域逐渐普遍,但相关影响往往缺乏系统性评估与报告。研究过程中很少对能源使用情况进行量化分析,也缺乏统一标准来衡量不同模型的环境成本,从而使整体影响被低估。

图1展示了开放与可持续人工智能面临的核心障碍,包括可复用性、可重复性与可持续性三个相互关联的维度,以及诸如模型不可移植、信息披露不足和环境影响未报告等关键问题,这些因素共同限制AI研究的长期价值。

图1 OSAI在生命科学中的主要障碍

表1总结了常见的环境影响衡量方法,包括CO2当量、能耗、浮点运算次数以及运行时间等指标,并对其测量方式与局限性进行了对比说明,为后续环境评估提供参考框架。

表1 AI模型计算与环境影响评估指标

OSAI框架与实践路径

为应对这些系统性挑战,开放与可持续人工智能(OSAI)框架被提出,旨在通过一系列具体实践推动研究范式转变。该框架围绕三个核心维度展开:提升模型与数据的可复用性、增强研究过程的可重复性以及降低AI系统的环境影响。

在可复用性方面标准化元数据的使用能够提高资源的可发现性与互操作性,专门的模型注册平台则有助于集中管理与共享研究成果,而针对研究人员的培训与指导可以进一步提升实践水平。在可重复性方面,完整的信息披露与清晰的文档记录构成基础,通过容器化技术和环境管理工具,可以实现模型在不同系统之间的稳定运行,而标准化的数据集与评估流程则有助于确保结果的可比较性。在可持续性方面,采用绿色AI方法能够减少计算资源消耗,通过优化硬件选择与使用方式可以降低能源成本,同时对环境影响进行测量与报告,有助于建立透明的资源使用机制。

这些实践建议并非孤立存在,而是通过与广泛的AI生态组件相结合形成整体体系。生态组件涵盖元数据标准、工具平台、数据仓库和评测框架等多种资源,通过将这些组件与具体实践相结合,可以形成清晰的实施路径,使研究人员能够在实际工作中逐步落实相关原则。该体系具有一定灵活性,不同研究场景可以根据需求选择合适组件,从而实现从模型开发到发布的全过程规范化。

图2展示了OSAI各项建议与AI生态组件之间的对应关系,并通过示例路径说明如何将不同组件组合应用,实现从模型开发到环境影响评估的全过程管理。

图2 OSAI建议与生态系统组件映射及实施路径

新兴问题与发展趋势

随着AI技术形态的演进,智能体系统等新型应用不断涌现,为生命科学研究带来更高自动化能力的同时,也引入新的复杂性。这类系统依赖动态数据源与多组件交互,其行为可能随时间变化而发生改变,使得结果难以稳定复现。同时,长时间运行与多任务执行使其能源消耗显著增加,对环境可持续性提出更高要求。在这种背景下,对系统运行过程进行详细记录、提高透明度以及持续监测资源使用情况,成为确保研究可靠性的重要手段。

在更广泛的层面,推动开放与可持续AI的发展还需要制度与政策的支持。当前的AI治理框架虽在伦理与法律方面不断完善,但在具体实施路径上仍存在不足,与开放科学实践之间缺乏紧密衔接。科研评价体系正在逐步转型,开始重视数据与模型等非传统成果,但整体激励机制仍有待加强。与此同时,产业界在开放共享方面面临商业利益约束,与学术界之间存在目标差异,这种不一致性在一定程度上限制了开放生态的形成。

总结

人工智能在生命科学中的应用正处于由快速扩展向规范化发展的关键阶段。技术进步带来了前所未有的研究能力,但同时也暴露出可复用性不足、可重复性缺失以及环境影响不断增加等问题。通过引入开放与可持续人工智能框架,将研究实践从单纯追求性能提升转向兼顾透明性、可靠性与可持续性的综合目标,可以逐步改善当前研究生态。统一标准的建立、资源共享机制的完善以及实践路径的明确,有助于减少重复劳动,提高科研效率,并降低环境成本。通过将分散的工具与平台整合为可操作的体系,研究人员能够在具体工作中更容易落实规范化实践,从而推动AI研究向更加开放、可靠与可持续的方向发展。最终,这一转变不仅有助于提升生命科学研究的质量与效率,也将为未来科学创新提供更加稳固的基础。

参考链接:

https://doi.org/10.1038/s41592-026-03037-6

--------- End ---------

内容中包含的图片若涉及版权问题,请及时与我们联系删除