- 简介大型语言模型(LLMs)能够在其潜在空间中编码复杂的关联,但在不确定性优化中的应用仍然充满挑战。我们通过一种新颖的架构填补了这一空白,该架构将LLM微调重新定义为通过深度核方法优化高斯过程(GP)的边缘似然。我们引入了基于LLM的深度核函数,这些核函数与GP联合优化,从而保留了两者的优点:LLM提供了一个丰富且灵活的输入空间以支持贝叶斯优化,而GP则通过预测不确定性对这一空间进行建模,从而实现更高效的采样。在Buchwald-Hartwig反应优化中,我们的方法将近似翻倍地提高了高性能反应的发现率,相较于静态LLM嵌入(从24%提升至43%,仅需50次优化迭代即可覆盖前5%的最佳反应)。此外,与领域特定表示相比,我们的方法无需专门特征,仍实现了14%的改进。通过对19个基准测试的广泛实证评估——涵盖从普通化学到反应和分子性质优化的任务——证明了我们方法的稳健性、通用性以及在以下方面的持续改进:(1) 不同任务,(2) 不同LLM架构(编码器、解码器、编码器-解码器),(3) 不同预训练领域(与化学相关或通用目的),以及(4) 不同超参数设置(在单个数据集上调整一次即可适用)。最后,我们解释了这些改进的原因:通过边缘似然进行的联合LLM-GP优化隐式地执行了对比学习,使表示对齐,从而产生(1) 更具结构化的嵌入空间,(2) 更优的不确定性校准,以及(3) 更高效的采样——并且无需任何外部损失。这项工作不仅在样本高效优化方面提供了实际进展,还揭示了有效贝叶斯优化的关键因素。
- 图表
- 解决问题论文试图解决在不确定性优化中如何有效利用大型语言模型(LLM)的问题。具体来说,现有的LLM虽然能够编码复杂的化学反应关系,但在优化任务中表现不佳。这是一个尚未完全解决的问题,特别是在化学反应优化领域。
- 关键思路论文提出了一种将LLM与高斯过程(GP)结合的新方法,通过联合优化LLM的深度核函数和GP的边际似然,从而实现更高效的贝叶斯优化。这种方法不仅保留了LLM对复杂输入空间的强大表达能力,还利用GP建模预测不确定性以提高采样效率。相比传统的静态LLM嵌入或特定领域表示,该方法显著提升了优化性能。
- 其它亮点论文在19个基准测试中验证了方法的鲁棒性和通用性,涵盖从一般化学到分子性质优化的任务。实验表明,相比静态LLM嵌入,新方法在Buchwald-Hartwig反应优化中的发现率几乎翻倍(从24%提升至43%)。此外,无需专用特征的情况下仍比领域特定表示高出14%。代码未提及是否开源,但作者提供了理论解释,指出联合优化通过隐式对比学习改善了嵌入空间结构、不确定性校准和采样效率。未来可以探索更多领域的应用以及不同类型的LLM架构。
- 近期相关研究包括:1) 使用预训练LLM进行分子生成和优化的工作,如'Graph-based Molecular Optimization Using Pretrained Language Models';2) 结合深度学习与贝叶斯优化的研究,例如'Deep Bayesian Optimization for Molecular Design';3) 高斯过程在化学反应优化中的应用,如'Gaussian Processes for Reaction Outcome Prediction'。这些工作大多集中在单一模型或简单组合上,而本研究通过联合优化实现了更深层次的协同作用。
沙发等你来抢
去评论
评论
沙发等你来抢