Informing Acquisition Functions via Foundation Models for Molecular Discovery

2025年12月15日
  • 简介
    贝叶斯优化(BO)是一种关键方法,通过估计分子与其性质之间的映射关系并寻找最优候选分子,从而加速分子发现过程。通常情况下,BO会迭代更新该映射的概略概率代理模型,并优化由此模型导出的采集函数,以指导分子选择。然而,在数据稀少、先验知识不足且候选空间庞大的情况下,其性能受到限制。大型语言模型(LLMs)和化学专用的基础模型能够提供丰富的先验信息,有助于提升BO的效果,但高维特征、代价高昂的上下文学习以及深度贝叶斯代理模型带来的计算负担,限制了这些模型的充分应用。为应对这些挑战,我们提出了一种无需显式似然建模的贝叶斯优化方法,该方法绕过传统的代理建模过程,直接利用通用大语言模型和化学专用基础模型中的先验信息来构建采集函数。我们的方法还学习对分子搜索空间进行树状结构划分,并在每个局部区域定义相应的采集函数,从而通过蒙特卡洛树搜索实现高效的候选分子筛选。此外,通过引入基于粗粒度大语言模型的聚类机制,该方法进一步提升了对大规模候选集合的可扩展性——仅在那些统计上具有更高属性值的聚类内进行采集函数的评估。大量实验与消融分析结果表明,所提出的方法显著提升了大语言模型引导下的分子发现任务中贝叶斯优化的可扩展性、鲁棒性以及样本使用效率。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在低数据量、缺乏先验知识且候选空间巨大的情况下,传统贝叶斯优化(BO)在分子发现中效率低下、扩展性差的问题。尤其是在利用大语言模型(LLMs)和化学基础模型增强BO时,高维特征表示、上下文学习成本高以及深度贝叶斯代理模型的计算负担进一步限制了性能。这是一个具有现实意义的新问题,特别是在将前沿AI模型应用于科学发现的背景下。
  • 关键思路
    提出了一种无需显式似然建模的贝叶斯优化方法,绕过传统代理模型训练,直接利用通用大语言模型和化学专用基础模型提供的先验知识来构建获取函数。通过学习分子搜索空间的树形结构划分,并结合局部获取函数与蒙特卡洛树搜索实现高效候选选择;引入基于LLM的粗粒度聚类,仅在预测属性值更高的簇内进行评估,显著提升可扩展性。该思路创新地将LLM先验与序列化搜索策略结合,避免了昂贵的概率建模过程。
  • 其它亮点
    实验在多个分子优化任务上进行了广泛验证,包括性质最大化(如药物相似性、合成可及性等),并与现有BO方法对比展示了更高的样本效率、鲁棒性和扩展能力。使用了标准分子生成数据集(如ZINC、ChEMBL子集)并整合了SMILES表示下的LLM(如MolT5、ChemBERTa)作为先验来源。虽然论文未明确提及开源代码,但其模块化设计(聚类+树搜索+LLM先验)为后续研究提供了清晰路径,尤其值得深入探索不同基础模型融合方式及在真实实验闭环中的应用。
  • 相关研究
    1. Efficient Bayesian Optimization for Large-Scale Molecular Discovery via Surrogate-Assisted Search 2. Language Models as Optimizers: Emerging Role of LLMs in Scientific Design 3. Scalable Molecular Generation Using Tree-Structured Latent Spaces 4. Foundation Models for Chemistry: Progress and Challenges 5. Monte Carlo Tree Search for Molecule Optimization with Sparse Rewards
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问