DRUGAI
荧光成像在基础研究和临床实践中不可或缺,其发展离不开荧光染料的进步。然而,尽管近年来荧光染料数量迅速增长,许多现有分子仍存在性能不足的问题,其开发过程高度依赖试错实验,受限于微妙的结构-性质关系和复杂的溶剂效应。
为此,研究人员构建了FLAME(FLuorophore design Acceleration ModulE),一个模块化的人工智能框架,通过整合开源数据库、多种预测模型和先进的分子生成器,系统性加速荧光染料设计。首先,研究人员建立了迄今为止规模最大的荧光染料-溶剂对开源数据库(FluoDB),共包含55,169个样本。随后开发了FLSF模型,结合荧光结构域知识构建了专属指纹(fluoroscaffold),实现了对光学性质的快速准确预测,其可靠性已通过分子和原子层面的可解释性分析验证。最后,框架集成了分子生成模块,可设计具备目标荧光性能的新化合物。研究人员合成并评估了一类3,4-噁唑并香豆素类代表性分子,并首次获得了具有强荧光的新化合物。

发光分子广泛应用于多个领域,其中荧光染料因其体积小、易于合成、成本低等优势,在生物成像中受到广泛关注。为了满足成像中的穿透深度和检测灵敏度等要求,深入理解荧光染料的结构-性质关系(SPR)对于设计具备特定激发波长和亮度的分子至关重要。然而,目前对该关系的认知仍然有限,主要受限于两个方面:一是数据稀缺,许多潜在结构变体因合成难度未被系统探索;二是荧光性质受到多种因素影响,微小结构变化或不同溶剂环境均可能导致显著的光学变化,增加了理性设计的难度。
近年来,基于机器学习的数据驱动研究在分子性质预测、虚拟筛选和分子生成等方面展现出巨大潜力。针对荧光设计,需要同时考虑吸收波长、发射波长、量子产率和摩尔吸光系数等多个交织的性质。已有研究表明,机器学习模型可在不依赖先验知识的情况下,从数据中自动学习模式并进行预测,为荧光性质建模提供了可行方案。
为系统推进荧光染料设计,研究人员构建了FluoDB数据库,包含55,169个荧光染料-溶剂对,较现有数据库在数据量和分子多样性方面均有显著提升,划分为16类核心荧光骨架和728个子类。基于此,研究人员提出了FLSF预测模型,融合由728种荧光骨架编码构建的结构指纹(fluoroscaffold)与传统消息传递神经网络,通过GRU单元实现结构与性质的深度关联。基准测试表明,该模型在预测准确性和速度方面优于现有模型,并通过多种可解释性分析验证其可靠性与潜力。
为进一步推动分子生成,研究人员建立了FLAME(FLuorophore design Acceleration ModulE)人工智能框架,集成数据库、预测模型与生成工具。以Reinvent为代表的生成模型可高效探索化学空间,并生成具备目标光学性能的新分子。研究人员合成并评估了3,4-噁唑并香豆素类分子,成功获得一种具有强荧光的新化合物,展示了该框架在加速荧光染料设计方面的实际应用潜力。

结果
数据收集与处理
研究人员在先前构建的近红外荧光染料数据库(SMFluo1)基础上,进一步扩大数据量以满足图神经网络(如GCN、Attentive FP)对大规模训练数据的需求,并改进预测精度。鉴于生物成像对荧光染料的多种性能要求,研究人员重点关注了四个关键光物理参数:吸收波长、发射波长、荧光量子产率和摩尔吸光系数,并从文献和多个开源数据库中系统收集数据,构建了包含35,528个独特分子、55,169对荧光染料-溶剂组合的大型数据库——FluoDB。该数据库还按12类经典骨架与4类非经典骨架分类,涵盖728个子结构,显著提升了分子的多样性和数据完整性。

FluoDB数据分析
FluoDB揭示了多个参数之间的相关性,如吸收与发射波长呈正相关;分子量与多个光学参数相关性显著。此外,不同溶剂对同一分子的光学性质有明显影响,突显了溶剂因素在性能预测中的重要性。不同荧光骨架在吸收/发射波长分布上存在差异,部分骨架(如BODIPY、卟啉、squaraine)具有更长波长或较小Stokes位移,这为合理筛选起始骨架提供了数据支持。
FLSF模型构建与预测性能
为提升预测效率和准确性,研究人员开发了基于728维荧光骨架指纹(fluoroscaffold)融合消息传递神经网络的新模型FLSF。与现有模型相比,FLSF在预测吸收与发射波长方面表现出色(R²=0.94),对非经典结构的泛化能力也较强。在多溶剂条件测试中,FLSF准确捕捉了溶剂效应,对溶致变色分子的预测表现亦良好。相比传统TD-DFT方法,FLSF计算更快且误差更小,具备高通量筛选潜力。

模型可解释性分析
FLSF不仅预测性能优异,还具备良好的可解释性。在分子层面,模型能有效区分不同波长特征分子;在原子层面,通过遮蔽法揭示关键基团对光学性质的影响,验证其已掌握实验中常见的结构-性质规律,如香豆素骨架中供/受电子基的调控效应,表现出较强的可靠性与泛化能力。

FLAME平台的构建与分子生成
为实现从数据到设计的闭环,研究人员构建了FLAME平台,集成数据库、预测模型与分子生成工具,支持多种输入方式与目标设定。平台可用于新分子的虚拟筛选、结构优化及骨架导向设计,简化了传统依赖经验的分子设计流程。以BODIPY或其他骨架为例,用户可设定目标参数,FLAME便可生成并筛选具备预期性能的新化合物。

实验验证
为验证FLAME在实际分子设计中的可行性,研究人员聚焦于结构灵活、荧光可调的香豆素衍生物。平台生成的3,4-噁唑并香豆素类新分子因其结构新颖与合成可行性而被优先筛选,并发展了一种一锅法合成策略,在碱性条件下以异氰酸酯和水杨酸酯为起始原料,成功获得16种取代体。测试结果与FLSF预测一致,某些取代位点(如6/7位氨基)导致红移与发光增强。进一步细胞成像实验显示,代表性分子在HeLa细胞中具有明亮荧光,表明其具有生物成像应用潜力。

讨论
研究人员开发了FLAME——一个模块化人工智能辅助框架,旨在高效设计具备目标光学性能的新型荧光染料。为此,研究人员整合并扩充了来自不同来源的数据,构建了目前最大的开源荧光数据库FluoDB,涵盖55,169个溶剂化荧光染料和109,054条数据记录,包含吸收波长、发射波长、荧光量子产率和摩尔吸光系数四个关键光物理参数。与以往数据库相比,FluoDB在分子多样性和数据体量上具有显著优势,并通过系统数据分析揭示了光物理参数之间、与分子量及溶剂类型之间的潜在关联。
为了适用于分子生成过程中的打分环节,预测模型需同时具备高精度与高效率。研究人员构建了FLSF模型,融合由荧光骨架知识构建的728维结构指纹(fluoroscaffold),在保持高准确率的同时,训练速度比ABT-MPNN快10倍。此外,FLSF通过分子层级与原子层级的可解释性分析验证了其对结构-性质关系的准确把握,模型所学原子贡献与化学专家经验高度一致。
在此基础上,研究人员结合分子生成工具Reinvent 4,实现了目标荧光分子的de novo生成。所设计的3,4-噁唑并香豆素类分子通过新开发的金属自由一锅反应策略顺利合成,其预测光学性能与实测结果高度一致(吸收波长误差为13.3 nm,荧光量子产率误差为0.093,摩尔吸光系数误差为0.430),其中一例未报道的香豆素衍生物展现出优异荧光(ΦPL = 0.541,log10εmax = 4.314,水溶液中),具有良好的生物成像潜力。
上述结果表明,FLAME可显著降低荧光染料设计中对反复试验的依赖,只需输入目标光物理参数,即可自动完成多步骤计算流程,适用于非专业人员使用。凭借其模块化架构,FLAME可持续集成新数据与新算法以适应未来发展。同时,未来可将可合成性评分模型及逆合成工具(如AiZynthFinder、Retro*、ASKCOS)引入FLAME,用于样本筛选及合成路径规划,从而进一步提升从设计到合成的效率。
整理 | WJM
参考资料
Zhu, Y., Fang, J., Ahmed, S.A.H. et al. A modular artificial intelligence framework to facilitate fluorophore design. Nat Commun 16, 3598 (2025).
https://doi.org/10.1038/s41467-025-58881-5
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢