Multifidelity linear regression for scientific machine learning from scarce data

2024年03月13日
  • 简介
    机器学习(ML)方法适用于数据的参数化模型类,已经引起了人们的极大兴趣,因为它们可以作为学习复杂工程系统的代理模型的潜在方法,而传统的模拟方法则非常昂贵。然而,在许多科学和工程环境中,生成高保真度的训练数据是昂贵的,可用于生成训练数据的预算是有限的。在稀缺高保真度数据上训练的ML模型具有高方差,并且对训练数据集的小变化非常敏感。我们提出了一种新的多保真度训练方法,用于科学机器学习,它利用了可用的不同保真度和成本的数据的科学背景;例如,高保真度数据可以由昂贵的完全解析物理模拟生成,而较低保真度的数据可能来自于基于简化假设的更便宜的模型。我们使用多保真度数据来定义线性回归模型的未知参数的新多保真度蒙特卡罗估计器,并提供理论分析,保证该方法的准确性和对小训练预算的改进鲁棒性。数值结果验证了理论分析,并证明了基于稀缺高保真度数据和额外低保真度数据训练的多保真度学习模型的方差比仅基于成本相当的高保真度数据训练的标准模型低一个数量级。这说明在稀缺数据的情况下,我们的多保真度训练策略比标准训练方法产生了更低的期望误差模型。
  • 图表
  • 解决问题
    如何在数据集有限的情况下,通过多保真度训练方法提高科学机器学习模型的准确性和鲁棒性?
  • 关键思路
    利用不同保真度和成本的数据,定义新的多保真度蒙特卡洛估计器,对线性回归模型的未知参数进行训练。通过理论分析证明了该方法的准确性和鲁棒性。实验结果表明,相比于只使用高保真度数据的标准模型,使用多保真度训练方法可以显著降低模型方差,提高模型准确性。
  • 其它亮点
    该方法可以在数据集有限的情况下,利用不同保真度和成本的数据提高科学机器学习模型的准确性和鲁棒性。实验结果验证了该方法的有效性,并且在实际应用中具有广泛的应用前景。
  • 相关研究
    近年来,在科学机器学习领域中,已经涌现出许多相关研究。例如:'Multifidelity Monte Carlo Estimation for General Bayesian Inverse Problems','Multi-fidelity machine learning: A survey for engineering applications'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论