- 简介随着深度学习计算成本的不断增加,依赖于黑盒贝叶斯优化(BO)的自动超参数优化方法面临着限制。冻结-解冻BO提供了一种有前途的灰盒替代方法,可以逐步地将稀缺资源分配到不同的配置中。然而,这种方法固有的频繁代理模型更新对现有方法提出了挑战,需要在线重新训练或微调它们的神经网络代理模型,引入了额外的开销、不稳定性和超超参数。在本文中,我们提出了FT-PFN,一种新的冻结-解冻BO代理模型。FT-PFN是一个先验数据拟合网络(PFN),利用变压器的上下文学习能力,在单个前向传递中高效可靠地进行贝叶斯学习曲线外推。我们在三个基准套件上的实证分析表明,FT-PFN的预测比以前工作中使用的深高斯过程和深度集合代理模型更精确,速度快10-100倍。此外,我们展示了当与我们的新型采集机制(MFPI-random)相结合时,所得到的上下文冻结-解冻BO方法(ifBO)在相同的三个深度学习HPO基准测试族群中获得了新的最先进性能。
- 图表
- 解决问题本论文旨在解决深度学习中超参数优化方法中黑盒贝叶斯优化的计算成本过高的问题,并提出了一种新的灰盒方法——冻结-解冻BO。然而,现有方法中频繁的代理模型更新对在线重新训练或微调神经网络代理带来了困难,引入了额外的开销、不稳定性和超超参数。本文提出了FT-PFN,一种新的冻结-解冻BO代理,它利用了变压器的上下文学习能力,在单次前向传递中高效可靠地进行贝叶斯学习曲线外推。
- 关键思路本文提出了FT-PFN,一种新的代理模型,利用变压器的上下文学习能力,在单次前向传递中高效可靠地进行贝叶斯学习曲线外推。与之前的深度高斯过程和深度集成代理相比,FT-PFN的预测更准确,速度快10-100倍。当与本文提出的新收购机制(MFPI-random)相结合时,所得到的冻结-解冻BO方法(ifBO)在深度学习HPO基准测试中取得了新的最优性能。
- 其它亮点本文提出了一种新的灰盒方法冻结-解冻BO,并提出了FT-PFN,一种新的代理模型,它利用变压器的上下文学习能力,在单次前向传递中高效可靠地进行贝叶斯学习曲线外推。本文的实验结果表明,FT-PFN的预测更准确,速度快10-100倍,当与本文提出的新收购机制(MFPI-random)相结合时,所得到的冻结-解冻BO方法(ifBO)在深度学习HPO基准测试中取得了新的最优性能。
- 在这个领域中,最近还有一些相关的研究,例如“Bayesian Optimization with Robust Bayesian Neural Networks”、“BOHB: Robust and Efficient Hyperparameter Optimization at Scale”等。
沙发等你来抢
去评论
评论
沙发等你来抢